1 
                    
                    azuginnen      2015-05-06 16:49:11 +08:00 
                    
                    这样反而好呀,你用api过去返回json不是好解析么,而且明显的,热搜榜那里随便看看,滑到头上的时候又来xxx条新微薄了,肯定是ajax一遍一遍的.............. 
                 | 
            
     4 
                    
                    alansalexer      2015-05-06 21:50:31 +08:00 via Android 
                    
                    根据关键词搜索采集新浪微博,这条路坑比较多,当然还是要具体需求具体分析。 
                首先,你需要模拟登录,使用webkit渲染页面,页面渲染好之后再取里面的信息。这方面可以利用的工具有python的qt-webkit, nodejs的phantomjs/casperjs。 其次,新浪会在你取到第50页左右的时候弹出验证码,要么手动输入,要么想办法自动识别验证码(我没有做过)。 总之如果你以前没有太多爬虫方面知识的话,选新浪微博的搜索页面有点困难了,但学习一下总是好的。  | 
            
     5 
                    
                    endoffight      2015-05-09 00:00:18 +08:00 via Android 
                    
                    
                 |