我们是马不停蹄不停迭代产品的小团队! 感谢大家的各种意见。 这个帖子里,我想跟大家认真讨论一下,大家平时写爬虫会是想采集什么数据,对一个通用爬虫,或者如果你们想定制爬虫,又会有什么要求。
另外,欢迎来看我们的新 ui :全新 ui 的造数页面在这里
论坛已经搭建好了,正在构思放什么资源上来方便大家,也欢迎意见。
     1 
                    
                    Powered      2017-01-10 12:18:41 +08:00 via iPhone    爬虫没太大技术含量 
                 | 
            
     2 
                    
                    syk      2017-01-10 12:19:07 +08:00    在一家在线销售餐饮设备的公司干过,主要收集的最多就是淘宝同类商品价格,图片,商品链接。其次就是同类竞争商家网站销售的设备设备种类! 
                 | 
            
     3 
                    
                    GrahamCloud   OP @Powered 你这个没说错,技术含量 体现应该是通用性,优化存取和 针对策略上。 
                 | 
            
     4 
                    
                    GrahamCloud   OP @syk 求使用建议 
                 | 
            
     5 
                    
                    xiamx      2017-01-10 13:31:18 +08:00    希望定价能显示在主页上 
                 | 
            
     6 
                    
                    imn1      2017-01-10 13:49:42 +08:00    简单说,数据有效期达到按年为单位的,都是值得保留的 
                时效越短,其专用性质越强,就是使用人群越单一  | 
            
     7 
                    
                    GrahamCloud   OP @imn1 这个点非常对。 
                 | 
            
     8 
                    
                    GrahamCloud   OP @xiamx 什么定价 
                 | 
            
     9 
                    
                    langmoe      2017-01-10 14:07:54 +08:00    通用的。。比如这货?  
                http://www.shenjianshou.cn  | 
            
     10 
                    
                    yuntong      2017-01-10 14:11:55 +08:00    不好用... 
                 | 
            
     11 
                    
                    zhaixiaohu      2017-01-10 17:40:31 +08:00    怎么一直都是正在爬取,看不了结果 
                 | 
            
     12 
                    
                    GrahamCloud   OP @langmoe 方向不一样,我们想让用户完全不用写代码。 
                 | 
            
     13 
                    
                    GrahamCloud   OP  | 
            
     14 
                    
                    txlty      2017-01-10 18:37:34 +08:00    站长圈子有个古老的产品,叫“火车头”。 
                 | 
            
     15 
                    
                    langmoe      2017-01-10 18:39:40 +08:00    @GrahamCloud 是不用写,神箭手做的就是这一块市场。开发者负责提交不同网站的爬虫规则换取报酬,而真正需要爬虫的用户,只需要在商城查找并购买规则,就可以拿到源源不断的数据。 
                 | 
            
     16 
                    
                    kindjeff      2017-01-10 19:29:59 +08:00 via iPhone    微博的数据啊,但是爬起来很困难。 
                分析微博粉丝结构,评论转发点赞的人的结构还有趋势。  | 
            
     17 
                    
                    frankzeng      2017-01-10 21:22:25 +08:00    要一个输入商品的 url 就能获取到他的价格,名称,分类,图片这些 
                 | 
            
     18 
                    
                    yuntong      2017-01-11 08:54:40 +08:00     | 
            
     19 
                    
                    GrahamCloud   OP @langmoe 这个模式有意思 
                 | 
            
     20 
                    
                    GrahamCloud   OP @frankzeng 这个是基本需求,目标网站一般是哪些 
                 | 
            
     21 
                    
                    GrahamCloud   OP @yuntong 只能尽量让你不用写然后省点力,然后再说靠谱的事,暗坑太多了现在。 
                 | 
            
     22 
                    
                    GrahamCloud   OP @txlty 火车头我晓得。 
                 | 
            
     23 
                    
                    skywayman      2017-01-12 12:03:20 +08:00     | 
            
     24 
                    
                    GrahamCloud   OP @skywayman 部分可以,很多反爬的还搞不定。 
                 | 
            
     25 
                    
                    quericy      2017-01-12 13:01:24 +08:00    这么久了,上次那个遮罩的问题还是没搞定么... 
                 | 
            
     26 
                    
                    GrahamCloud   OP @quericy 遮罩意外的不好解决,我们会在年前再出一版再应对一下。 
                 | 
            
     27 
                    
                    Powered      2017-01-13 11:56:49 +08:00    @skywayman 普通爬虫原理不简单?下载页面--->解析--->持久化 
                有很多反爬虫机制的网站为什么要去爬?显得你牛逼吗  | 
            
     28 
                    
                    skywayman      2017-01-13 12:13:49 +08:00 
                    
                    @Powered 说得不错,普通爬虫的确是这样,但也有很多爬虫不是这样的,却被你一句:爬虫没太大技术含量全盘推倒. 
                没含量你写个超过谷歌,百度的好了,瞎嚷嚷,还"为什么要去爬?显得你牛逼吗",你 CEO 还 CTO 啊?公司业务是你我一个码农说不爬就不爬的?不想干就滚蛋...  | 
            
     29 
                    
                    Powered      2017-01-13 18:58:29 +08:00 via iPhone 
                    
                    @skywayman 
                最 low 的辩论者往往会举一些吓唬人的例子,你用你的脑袋去想一下人家为什么要反爬虫,为的是什么?我猜为的就是防范你这种恶意爬取,消耗带宽和吞吐量的人吧。公司的业务是这个,我也是醉了。。。靠爬一些很难爬到的数据活着的公司,我也只能想到黑产了。唉。  | 
            
     30 
                    
                    voidtools      2017-01-13 21:39:10 +08:00 via Android 
                    
                    小额的数据,纯个人需求,用自动翻页,正则就行了。 JS 动态搞不定。 
                 | 
            
     31 
                    
                    skywayman      2017-01-13 21:50:44 +08:00    @Powered 你还在象牙塔吗? 法律规定不能杀人,还有人杀吧, 别人反爬就不能爬了? 智商捉急... 
                最近团队有个项目就是为 Party 做爬虫,就是爬你说的这种反爬虫的网站. 舆情听说过吧,算了,可开阔你眼界的.奈何你...! 朋友,凡是你浅尝辄止过都不要说简单, 做不到的不是别人 low,反而是你自己,开阔点眼界吧,对将来有好处!  | 
            
     32 
                    
                    Powered      2017-01-14 09:07:49 +08:00 via iPhone 
                    
                    
                 | 
            
     33 
                    
                    SlipStupig      2017-01-14 09:35:55 +08:00    穷码农创业三俗:爬虫、微信、直播间,作为一个其中一员给你一些建议(觉得不好当我胡说): 
                1.产品定位很重要别想解决所有的问题,码农创业很容易只想技术而忽略商业,我认为你这种东西方式上就不可能抓取特别复杂的页面,还是那个话,你这种东西只能给一些公司非技术人员用,爬虫在 ETL 这个环节内,解决的是 E 的问题,我朋友她们公司是做电商的有 10 多人的运营团队除了日常工作外额外就是每天人肉去网上找图找文章(老板觉得养个程序员没必要,反正找不到文章的开除),你这个很容易解决她们的难处 2.对用用户权限自由度的把握,你既然想着用户有足够的自由度,例如反抓取这些事情,你就不要管了,这些都是用户来决定,你提供解决方案的 API 就行,如果你不想用户去解决,那你就尽量不让用户插手,这个是一个侧重关系 3.盈利模式这块早期越单一越好,路想太多了,容易没路走  | 
            
     34 
                    
                    GrahamCloud   OP @SlipStupig 求加微信, Zaoshuio 
                 | 
            
     35 
                    
                    GrahamCloud   OP @SlipStupig 说的确实好啊 
                 | 
            
     36 
                    
                    copperusher      2017-01-16 13:49:00 +08:00    这个方向肯定没问题的,国外早就这样的网站了。关键是做得怎么样,以及如何找到用户。如果不能把这个工具嵌入用户现有的业务流程,那就很难把它发展起来。可以在网站首页给出你们设想的具体用户案例,那样更有说服力。 
                 | 
            
     37 
                    
                    j4fun      2017-01-16 14:01:12 +08:00    使用感觉。。好像速度特别慢,点了个示例上的 github trending ,上了个厕所回来还没好,不知道是不是姿势不对。(是不是需要控制一下每次爬取的数量,或者时间这样的。不要一次爬到完。) 
                恩。其实我觉得, 2C 和 2B 要想好吧, 2B 就简单一点,但是竞争会多一些吧。 2C 的话技术含量会高一些,爬社交之类的有反爬系统的会比较多。(不过有被 LOW 的风险?不懂~)  | 
            
     38 
                    
                    GrahamCloud   OP @j4fun 现在是 to B 方向,目前通用遇到的暗坑很多。 
                 | 
            
     39 
                    
                    GrahamCloud   OP @j4fun GitHub 好像今天是有一些问题,其他的您这边反应如何? 
                 | 
            
     40 
                    
                    j4fun      2017-01-16 16:51:51 +08:00    @GrahamCloud 下午又试了一次很快就出来了。。效果不错:) 
                 | 
            
     41 
                    
                    skywayman      2017-01-16 19:13:13 +08:00    @Powered 鄙视技术没含量的是你,说别人 low 的也是你,指桑骂槐说别人是狗的还是你,说越多好像越来越暴露你的本性了,原来你是这样的人!一开始就把自己摆在所谓的道德制高点来俯视别人,你这种二逼+傻叉在我十多年上网史中见得多了,宠辱不惊! 
                 | 
            
     42 
                    
                    GrahamCloud   OP @j4fun 谢谢,有哪里不爽您马上告诉我。 
                 | 
            
     43 
                    
                    GrahamCloud   OP @skywayman 别在意这个,别在意。说爬虫技术含量低是说我们业务呢,您跟着不开心就不好了。 
                 | 
            
     44 
                    
                    jiangzhuo      2017-01-17 12:13:07 +08:00    觉得用过功能最好的算是 diffbot , API 设计也最合理 
                 | 
            
     45 
                    
                    GrahamCloud   OP @jiangzhuo 努力的方向啊 
                 | 
            
     46 
                    
                    renyiqiu      2017-01-17 13:01:17 +08:00    怎么收费 
                 | 
            
     47 
                    
                    GrahamCloud   OP @renyiqiu 数据方面有什么需求么?求加微信 Zaoshuio 
                 | 
            
     48 
                    
                    GrahamCloud   OP @Powered 求建议求意见求反馈。 
                 | 
            
     49 
                    
                    Hansah      2017-01-17 15:17:11 +08:00    我不是程序员。。。我觉得免费的火车头都比现在大部分 web 爬虫要好用多了,也易用多了, so ? 
                 | 
            
     50 
                    
                    GrahamCloud   OP @siknet  这个信心我们还是有,欢迎比对。 
                 | 
            
     51 
                    
                    jiangzhuo      2017-01-18 12:05:46 +08:00    @GrahamCloud  
                @siknet 作为一个程序员,安装完火车头后搞了 5 分钟后还没有弄清楚怎么用就已经把这软件卸载了。 造数胜在操作简单,基本只有鼠标操作。 当然作为程序员来说最省事还是写个正则或者 chrome 里复制粘贴一个 selector  | 
            
     53 
                    
                    GrahamCloud   OP @jiangzhuo 我们现在也是这个初心,希望不会编程的能够迅速上手。 
                 | 
            
     54 
                    
                    GrahamCloud   OP @siknet 您这边一般采集什么数据,看看能不能帮上啥 
                 | 
            
     55 
                    
                    Hansah      2017-01-18 15:40:57 +08:00    @GrahamCloud 主要还是不规则页面,火车头琢磨下应该能搞定,只是最近在忙别的没空弄。 
                zaoshu 对不规则页面比较吃力吧?我用过一会,个人愚见,非找茬。 这两个页面应该算不规则页面,我拿火车头没搞定 http://cn163.net/archives/24280/ http://videos.yizhansou.com/4342  | 
            
     56 
                    
                    GrahamCloud   OP @siknet 超欢迎意见,求加微信 Zaoshuio 
                 | 
            
     57 
                    
                    sohoer      2017-01-19 13:11:53 +08:00     | 
            
     58 
                    
                    GrahamCloud   OP @sohoer 求加微信求加微信! Zaoshuio 
                 | 
            
     59 
                    
                    Limius      2017-01-19 17:04:26 +08:00    居然没有童鞋说到爬人行征信、各种电商网站里订单数据、送货地址(在已登录的前提下)这种数据,这很赚钱的啊。。。 
                P2P 金融互联网产品狗爬过。。。  | 
            
     60 
                    
                    GrahamCloud   OP @Limius 这个很对啊 
                 | 
            
     61 
                    
                    bzzhou      2017-01-20 13:42:41 +08:00    太慢了 
                基于渲染的方式来抓取,玩玩小规模数据还可以,大规模抓取要消耗的资源可不是一般人可以承受的(当然,这种情况一般都可以定制了)。 从目前了解,如果纯粹是为了降低抓取门槛,八爪、火车头等一堆方案;如果是满足大规模的采集需求,这种一般都是定制开发。  | 
            
     62 
                    
                    GrahamCloud   OP @bzzhou 现在这版问题确实多,年后会进一步迭代。 
                 |