小弟写一个爬虫爬网站中的列表数据，但是列表数据时延迟加载的，这个怎么爬呢？各位兄弟姐妹看过来！ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3571 天前的主题，其中的信息可能已经有所发展或是发生改变。

小弟正在写一个爬虫，已经到达了要爬取的地址，该页面有一个 list ，目标时爬取这个 list 中的数据，可恶的是，这个 list 的数据是动态加载的，也就是说页面渲染完毕之后 list 部分显示 loading 。。并不显示数据，造成目前卡在发 get 请求只能得到这个 list 里的 loading 。。。字符串

实际上在浏览器中这个 list 会在页面打开之后一定时间后刷出列表的数据，这样的数据该怎么爬取呢？？

10 条回复 • 2016-03-18 14:56:06 +08:00

1

zentorwie

2016-03-17 23:30:32 +08:00

一个有效但是性能不是很好的做法是用 PhantomJS 模拟浏览器。

2

zentorwie

2016-03-17 23:31:49 +08:00

忘了说是 selenium+PhantomJS

3

alansalexer

2016-03-17 23:38:28 +08:00

1. casperjs
2. python webkit

4

exoticknight

2016-03-17 23:45:32 +08:00

前几天刚用 node 和 phantomjs 搞类似的东西
你可以试试
另外一个思路是抓 ajax 请求，自己模拟

5

cuikangyuan

OP

2016-03-18 09:00:25 +08:00

@zentorwie 好的我试试

6

cuikangyuan

OP

2016-03-18 09:01:17 +08:00

@exoticknight 哈哈没学过 nodejs ，用的 beautifulsoup 和 requests

7

zerowxxyf

2016-03-18 09:10:16 +08:00

1

简单点的做法是抓包，找到获取数据的地址就 so easy 啦

8

cuikangyuan

OP

2016-03-18 09:19:26 +08:00

@zerowxxyf 恩，找到那个地址啦

9

3dwelcome

2016-03-18 10:34:15 +08:00

1

网易就是啊，内容是 ajax 动态刷的，你用 GET 取一个静态界面完全没意义。其实就如楼上说的，用 webkit 模拟一个浏览器呗，然后再把 rendertree 导出来。

10

wlsnx

2016-03-18 14:56:06 +08:00

F12 看 ajax

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 858 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 24ms · UTC 21:32 · PVG 05:32 · LAX 13:32 · JFK 16:32
♥ Do have faith in what you're doing.