就是通过访问一个用户的页面,以某个粉丝很我的大 V 为切入点 然后通过其粉丝数量 广度优先 爬取用户资料。
要怎么写代码跟结构可以最优化结省资源呢?
百分级别的用户,用 REDIS 应该会崩吧
KAFKA 呢? 好久没碰了 现在一头雾水 大佬们有没有案例赏个学习下
     1 
                    
                    jakeyfly   OP 忘记了说 用 PYTHON 
                 | 
            
     2 
                    
                    qiayue   PRO 不是一秒钟可以爬完,一定是控制好频率,不能太快,也不能太有规律,要有快有慢。 
                那么就说明你不能一直把数据存在内存中,你需要有能够缓存数据的地方。 存文件,或者存数据库都行。这种场景怎么可能会把 redis 给用崩掉?  | 
            
     4 
                    
                    dsg001      2020-06-25 16:55:36 +08:00 
                    
                    几年前爬知乎,用 mysql 也没问题,不考虑后期代码维护,gevent+requests+lxml 最简单省事 
                 | 
            
     5 
                    
                    JCZ2MkKb5S8ZX9pq      2020-06-25 16:58:35 +08:00 
                    
                    也要看平台的,比如微博限制粉丝显示上限,根本看不到多少的。 
                要么买接口,要么长期潜伏。  | 
            
     6 
                    
                    qiayue   PRO 做事之前不要想太多,先动手去做,做了之后遇到一个问题就解决一个问题,没有完美的方案,只有最适合自己的方案。 
                 | 
            
     7 
                    
                    jakeyfly   OP @JCZ2MkKb5S8ZX9pq 不用太多吧,我只是能抓多少就抓多少 
                 | 
            
     9 
                    
                    gabon      2020-06-26 02:50:43 +08:00 via Android 
                    
                    刚好之前做过。大概思路是布隆过滤器判断用户是否爬过,分布式调度,根据用户权重确定更新频率。话说现在微博生态这么差,爬到的数据质量有意义吗。。 
                 | 
            
     11 
                    
                    alienx717      2020-06-26 18:53:37 +08:00 
                    
                    爬虫的从入门到取保候审 
                 |