疫情区间没什么事情做,抓了一些抖音的数据

2020-02-24 14:49:11 +08:00
 dhlwing

有兴趣的可以访问这里:https://dds.lookeridea.com/admin/douyin/authors

2 月 16 号到现在抓了 50 多万的作者信息,接下来准备做一些热点的视频分析,比如作者的归类,视频热度监控等。 不知道还有什么可玩性。

另外请教下各位这种类型的数据分析如果做商用的话有什么法律风险吗?我看到一些其他网站比如飞瓜也在做类似的业务。不知道他们怎么规避相关的风险

13664 次点击
所在节点    程序员
95 条回复
yitl666
2020-02-25 15:51:42 +08:00
兄弟你的胆子挺肥啊,还敢发到论坛,真当头条的人不上 v 站啊😂
ihciah
2020-02-25 16:07:08 +08:00
入职头条的第一周,就被拉去听了“数据安全刑事风险培训”,主要就是讲爬虫风险。。
未授权+逆向+绕过反爬+商业盈利,基本稳的。
bytelee
2020-02-25 17:00:58 +08:00
面向监狱编程
hikarumx
2020-02-25 17:03:32 +08:00
估计要出事。、
polymerdg
2020-02-25 17:06:10 +08:00
抓包?
lI7RfFpJ007NWnY1
2020-02-25 17:10:42 +08:00
没有回复,估计进去了。lz 保重(狗头
locoz
2020-02-25 17:47:49 +08:00
商用了看人家心情,但是逆向了从接口爬的基本上被搞就必死
2828kakafa
2020-02-25 22:34:09 +08:00
爬虫写的好,牢饭吃饭饱
shmilypeter
2020-02-26 02:35:41 +08:00
@ihciah 我所知的是,如果你搜集了客户生产环境上的个人信息(包括姓名,联系方式,身份证号),一告一个准都是稳稳的,目前涉及到个人数据的,都是十分的敏感
ihciah
2020-02-26 09:33:24 +08:00
@shmilypeter 嗯,我是说定罪稳的🤣
dhlwing
2020-02-26 09:49:14 +08:00
感谢各位老铁的良言相劝
v2 上的高人很多,有人上去后不断的测试数据,之前的分页没有设置最大数值,有人一次分页使用几百条到几万页,数据库差点崩掉,感谢你们的测试。

另外说吃牢饭的朋友们,尤其感谢你们,我主贴就是在问风险问题,感谢你们的不吝赐教,但是我还是想多说一句,在中国乃至全球,商业行为都没有什么高尚与不高尚的道德可言,你们大概忘记了你们日常使用的百度或者 google 的数据是从哪里来的。再说今日头条,他的内容一开始是怎么来的,这不用我多说了吧?放眼整个中国互联网发展史,哪些大厂,曾经的 bat,某些时候他们的手段也依然有人不齿的一面。因为这就是商业,这就是商业生存的法则
liuqiangxi
2020-02-26 11:12:21 +08:00
据我所知抓取用户下的视频是不用逆向的,抖音网页版就能抓取
xiaoxiao001
2020-02-26 14:38:55 +08:00
留下联系方式可以聊下,我有资源,缺少技术
kakeiri
2020-02-26 15:14:21 +08:00
只要不是恶意攻击,拿来的数据不非法利用,都很正常,说人家非法的,只是你们想的太恶劣了,如果恶意攻击,楼主也不会发这些东西
dhlwing
2020-02-26 17:53:47 +08:00
@xiaoxiao001 联系方式上面有说到

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/647101

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX