大家用 python 都做过什么有趣的爬虫吗?

2015-09-10 19:31:03 +08:00
 tooweakchen

大家用 python 都做过什么有趣的爬虫吗?分享分享呗!

26636 次点击
所在节点    Python
97 条回复
wd0g
2015-09-12 03:20:10 +08:00
爬了 1024 所有的账户,然并卵还是没扫到能登录的
monkeylyf
2015-09-12 04:06:15 +08:00
@mckelvin 求代码
laoyuan
2015-09-12 05:06:45 +08:00
@JensenChen 是的,按教室弄到一块就行了。
@nikoukou 今天就有雅思考试,只能去一楼,但是一楼的桌椅质量不好年岁太长有气味!!
WhiteSaber
2015-09-12 08:44:51 +08:00
@codeforlife 相当有趣,之前想做一个 js 插件来着,他排版和搜索好差
bigzhu
2015-09-12 09:35:58 +08:00
我做了自已用的 http://follow.center/ 算不算?
整了 github instagram twitter tumblr 的东西进来,准确的说应该是调用 api ,不算爬虫
不过如果想整合国内的微博、知乎这些封闭型的,估计只能上爬虫了
Felldeadbird
2015-09-12 09:42:25 +08:00
我把 9 个目标网站所有连接都爬了,然后在抓里面的价格…到只爬了 2KW 条记录时,我放弃了。这样爬没效率。
bbking
2015-09-12 12:27:59 +08:00
爬 58
alexapollo
2015-09-12 12:32:28 +08:00
前两年写的少儿不宜爬虫。。 https://github.com/geekan/insane_crawler
luago
2015-09-12 16:25:43 +08:00
我想知道上面爬图的朋友,图片后来怎么处理了 :)
ljbha007
2015-09-12 17:02:54 +08:00
爬学校同学的证件照片、学号、班级、课表 爬了 2000 多个
但是胆子比较小 爬完就删了(主要是没有爬到好看的妹子)
davidlau
2015-09-12 17:07:40 +08:00
爬新浪微博,做关系链分析

https://github.com/liuslevis/weiquncrawler/
sohoer
2015-09-12 18:06:36 +08:00
http://www.shishibi.com/

大数据抓取、搜索排序优化、聚类、性价比计算、一个人完成真心累
csx163
2015-09-12 18:49:18 +08:00
爬种子,发行并没什么*用
csx163
2015-09-12 18:49:25 +08:00
爬种子,发现并没什么*用
ultimate010
2015-09-12 19:21:28 +08:00
实习时候用 20+台屌丝云服务器,分布式爬过上亿条淘宝数据,如 http://t.ultimate010.tk:18080/taobao.php 带宽够牛逼,曾经测试跑满 1G 带宽,爽
vivalon
2015-09-12 19:23:41 +08:00
撸过下厨房的菜单
giuem
2015-09-12 19:44:10 +08:00
@ultimate010 这数据占多少存储空间
Moker
2015-09-12 21:23:34 +08:00
@ljbha007 这些数据应该不是公开的吧 怎么找到入口的
ljbha007
2015-09-12 21:43:16 +08:00
@Moker 只是没有链接而已 自己构造 URL 可以进去
Earthman
2015-09-12 22:02:21 +08:00
@davidlau 某是不是看过你的毕设演讲啊

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/219769

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX