有没有爬虫王!可以教下我 Websocket 怎么爬吗?

56 天前
 JoryJoestar

想要爬的网站: https://crushon.ai/character/7e388767-63c7-45e3-b922-53458b4ae4f7/chat

一直请求 403 ,难受,搞不定,用无头 playwrihgt ,又不过 cloudflare ,请求又被拒绝,难搞!

想请教一下 v2 的各位佬,怎么爬这个网站聊天对话。

5608 次点击
所在节点    Python
30 条回复
peteretep
56 天前
你应该发到程序员版面 《恕我直言,用 websocket 发送对话,根本没有人能爬到我的内容 》
lisxour
56 天前
你发外包我可以接
irrigate2554
56 天前
看你这个描述,不是卡在 ws 而是卡在过不了 cf
cbythe434
56 天前
有头手工点 cloudflare
evan1
56 天前
我有个办法,别用无头,用有头。手动过下 cf ,然后程序自动爬。
rabbbit
56 天前
NSFW 警告,不要看首页
coderzhangsan
56 天前
😮,websocket 也能爬?如果能爬,那基于 TCP 协议的应该都能爬吧?
foufoufm
56 天前
@peteretep 今日 funning
musi
56 天前
用 electron 开 cdp 监听 ws
xiaoming1992
56 天前
@rabbbit 你跟我看的是一个首页吗?哪有 NSFW ,都是穿得严严实实的印度大妈和卡通人物
dreamkuo
56 天前
@peteretep 太经典了. 太厉害了. 赔付
dreamkuo
56 天前
@peteretep 佩服 你是懂发帖的
march1993
56 天前
用 chrome 打开,然后打开 inspector network 页,右键复制 curl(cmd/bash),这种基本可以下载下来
lyusantu
56 天前
@xiaoming1992 你登录了吗
lyusantu
56 天前
@xiaoming1992 登录解锁
JoryJoestar
56 天前
@peteretep 你是懂程序员的
JoryJoestar
56 天前
@musi 我试试,谢谢🙏
249239432
56 天前
@coderzhangsan 看页面源代码解析逻辑,可以爬
drymonfidelia
56 天前
@coderzhangsan 不能爬网站是怎么显示的?你能看到的东西都能爬
991547436
56 天前
playwright 这样过 cf
Browser browser = playwright.chromium().launch(new BrowserType.LaunchOptions().setHeadless(true)
.setArgs(List.of("--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36"))
);

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1150953

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX