如题,想收集 B 站所有用户的 UID ,但是 B 站现在用户 UID 位数已经达到了 16 位,简单的遍历似乎已经无法完成这个任务。 目前的进展: 测试了一个 16 位 UID 的上下账户,发现是连续的,疑似 B 站的散列是制造了一些固定的前缀,再以此分配 UID ,可以按一定间隔尝试寻找锚定点,进行查找。 下面这篇专栏也有一样的发现。 https://www.bilibili.com/opus/833100467182501892
看了一个测量B站Lv6用户占比的视频,我觉得不太科学,故想收集全部UID。
看了几个讨论暴力请求的,基本是没有可能,因为猪也是这么想的。
|  |      1moefishtang      165 天前 https://space.bilibili.com/{uid} bilibili 个人主页后面跟随的就是用户 id ,从 uid=1 开始,不停++,尝试访问对应的个人主页 能访问成功就记录用户 Username 和对应的 uid ,不能则标记为空 uid ? 感觉这个方法有点笨,而且会不会被 bilibili 风控? | 
|  |      2NaVient      165 天前 当然是看 b 站的泄露代码看看 uid 的生成规则啦(不是   至少对 21 年以前的用户是有效的 | 
|  |      3mingde816 OP @moefishtang 16 位 UID 你拿什么遍历,而且高并发直接风控,一秒 10 个用户都做不到(实测) | 
|  |      4Belmode      165 天前 提供个思路,感觉技术可行:做个 B 站 XX 插件、脚本,让别人去下载,收集使用插件、脚本的人的 uid ,并且同时收集他们的关注列表。 我告诉你,最好不要干这种事,这是非法的!收集用户信息这种行为比爬页面还危险的多,非常可拷,起步就是 6 个月,罪名是:非法侵入计算机信息系统罪。你没有那些巨头流氓有证,能“合法”搜刮用户信息,你小公司、个人敢干就等着吧。(身边亲眼所见被抓的) | 
|  |      5jaTomn      165 天前  5 提供一个思路,找几个粉丝最多的 up 主,dfs 粉丝树 | 
|      8loser123      165 天前 @moefishtang 按理来说没拿到鉴权的 token 是无法获得对应用户信息的, 除非没做水平鉴权 | 
|  |      9mingde816 OP @loser123 这个玩意貌似吃 IP ,我第一遍每秒稳定 40 个请求,总共是 10200 条请求,请求到第 4800 个开始风控,我做了并发和速率限制,然后后面全部失效。我第二遍尝试总共成功了一次,第三遍成功了 900 次。然后现在稳定风控。() | 
|      10defaw      165 天前 除了扫没有办法,有一个取巧的办法是买别人在 b 站加强风控之前爬好的数据。 | 
|  |      11Doiiars      165 天前 搜索引擎抓过的东西可以用搜索引擎加速的。 | 
|      13guo4224      164 天前 via iPhone  13 滚,别爬劳资的资料 | 
|  |      18RlyehHime      164 天前 via iPhone 好奇要这个干吗的 | 
|      19h1298841903      164 天前 @mingde816 #6 200 个也不少了吧,这样递归查询,同时查询粉丝和关注,在通过搜索关键字,通过视频查询 UP 主,感觉几轮下来,就收集的差不多了,剩下的估计就是僵尸号了。 可以通过抽样的方式,看自己搜集的比例。 | 
|  |      20duanxianze      164 天前 行走在违法犯罪的边缘 | 
|  |      21Shatyuka      164 天前 刑啊 | 
|  |      22teble      164 天前 可刑可拷 | 
|  |      23evan1 PRO 试试去爬 google 。google 搜一下 site:bilibili.com {uuid},有结果就有对应的用户,没结果就没用户。 | 
|  |      24Wxh16144      164 天前  1 | 
|  |      27x86      164 天前 带预算自然有人给你做 | 
|  |      28lisxour      164 天前 这种东西还要问吗,不靠自己用号码池抓,你要不打电话给 b 站运维,让他把数据库导出打包发给你? | 
|      29Laobai      164 天前 太刑了 | 
|  |      30binge921      164 天前 太刑了 | 
|      31JoeDH      164 天前 收集的理由? | 
|      32sir283      164 天前 via Android 用 selenium 调用浏览器访问? | 
|      33FlashEcho      164 天前 @Belmode #4 B 站有好几个大规模搜集用户信息的爬虫站(虽然因为反爬收集地不全),比如: laplace.live aicu.cc 我感觉如果没有商业冲突,至少 B 站是懒得管的,他们内控都一团糟,普通开发都能去生产数据库查用户隐私开盒用户,外部的网站就更懒得管了 | 
|      34abc1310054026      164 天前 这可能是个 XY Problem ,你想收集 UID 用来干什么? | 
|  |      35C02TobNClov1Dz56      164 天前  1 你可以试试到 b 站入职, 当现场运维人员, 然后到备份库里面导一份全量的 uid) | 
|  |      36la2la      164 天前 V 站联系 B 站数仓人员,每天用 excel 给你拷出来一点 | 
|  |      38suyuyu      164 天前 看了一下我的是 8 位 | 
|  |      39edward1987      164 天前 B 站主页啥的有风控,但是活动页不一定有风控 可以找几个活动看下请求 | 
|      40franswish      164 天前 没玩过爬虫技术,以下是我的一些突发想法和问题: 有没有懂法的人介绍下,爬虫行为是否触犯法律和爬取速率、数据量有关系吗? 除了本贴提到的爬 b 站用户 UID (商业网站),以前还看到过想自动化爬取公开招标公告的(政府、机构、国企网站),前者只有在比较快的速率和相对大的数据量下才会有实际使用价值,而后者说只是想用脚本替掉自己每天手动刷新(也就是说只需要每天若干次爬取即可),两者都算非法入侵计算机信息系统吗? 反过来说,如果我发动很多人集中访问某个地址,行为中不包含任何自动化手段,是否不管我发动多少人,都不算非法入侵计算机信息系统? | 
|  |      41duanxianze      164 天前 @franswish 最后一个,并不是,即使手段合法,实际造成了损失,一样可以判非法入侵计算机信息系统 | 
|      421018ji      164 天前 遍历出来在 b 站发视频卖,起不美哉 | 
|  |      43shadowyue      164 天前 你不用想做全量测试,做随机抽查,做概率测试,样本量多一点,结果就已经八九不离十了 | 
|  |      44shadowyue      164 天前 油管上应该也有类似的内容,是分析油管有多少个视频的,你去搜搜 | 
|  |      45MrKeanu      164 天前 你们的想法怎么这么有趣,我怎么想不到去爬 16 位的全量 uid 这种骚操作 | 
|      46Inception7      163 天前 @evan1 只搜的到知名 up 主 自搜查不到 | 
|  |      47duzhuo      163 天前 @Inception7 昨天试了 duckduckgo 是可以的,site:space.bilibili.com |