V2EX › coderhxl 的所有回复 › 第 4 页 / 共 4 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4

❮

❯

2024-04-19 17:00:40 +08:00

回复了 coderhxl 创建的主题 › 推广 › AI+Node.js x-crawl 爬虫：为何传统爬虫已不再是数据抓取的首选？

@yzding 结构是可能不会经常变更，但是类名会经常发生改动，但这种东西也说不准的，没人能知道下一秒会发生什么。也可以先让 AI 自动生成选择器，然后缓存选择器，下次爬取就用缓存的，当然如果类名发生改变就让 AI 重新获取一下。你的想法也不错！
直接用 AI 提取所需的内容也很便捷，https://coder-hxl.github.io/x-crawl/cn/guide/#%E7%A4%BA%E4%BE%8B2 这是我新写的示例 2 ，让爬虫和 AI 获取豆瓣电影排行榜的电影信息，这个示例可能更容易理解 AI 对于提取内容的作用，您也可以瞧瞧，特别是查看 AI 返回的 filmResult （电影的信息）

2024-04-19 14:23:30 +08:00

回复了 coderhxl 创建的主题 › 推广 › AI+Node.js x-crawl 爬虫：为何传统爬虫已不再是数据抓取的首选？

@yzding 忘了还有一点，这个示例我用的是免费的 API Key ，会进行中转，并不是直接直连 OpenAI ，也可能造成慢。

2024-04-18 10:44:19 +08:00

回复了 coderhxl 创建的主题 › 推广 › AI+Node.js x-crawl 爬虫：为何传统爬虫已不再是数据抓取的首选？

@yzding 查看 AI 需要处理的 HTML：[由于内容太多此处放不下，就只能放在此链接示例底部的查看 AI 需要处理的 HTML]( https://coder-hxl.github.io/x-crawl/cn/guide/#%E7%A4%BA%E4%BE%8B)，当时传入了大量的 HTML

2024-04-18 10:42:44 +08:00

回复了 coderhxl 创建的主题 › 推广 › AI+Node.js x-crawl 爬虫：为何传统爬虫已不再是数据抓取的首选？

@yzding AI 的处理时间跟传入的数据量有关

2024-04-17 17:13:43 +08:00

回复了 coderhxl 创建的主题 › 推广 › AI+Node.js x-crawl 爬虫：为何传统爬虫已不再是数据抓取的首选？

即使网站后续的更新导致类名或结构发生改变也能正常爬到数据，因为我们不再依赖于固定的类名或结构来定位并提取所需信息，而是让 AI 理解并解析网页的语义信息，从而更高效、智能和便捷提取所需数据。

2024-04-17 15:10:56 +08:00

回复了 coderhxl 创建的主题 › 推广 › AI+Node.js x-crawl 爬虫：为何传统爬虫已不再是数据抓取的首选？

目前新版 x-crawl 的 AI 辅助功能是依靠 OpenAI ，后续还可能加入其他 AI 。

2024-04-17 12:33:58 +08:00

回复了 coderhxl 创建的主题 › 推广 › AI+Node.js x-crawl 爬虫：为何传统爬虫已不再是数据抓取的首选？

@mightybruce 感谢您

2024-04-17 12:01:40 +08:00

回复了 coderhxl 创建的主题 › 推广 › AI+Node.js x-crawl 爬虫：为何传统爬虫已不再是数据抓取的首选？

了解 AI 和 x-crawl 爬虫结合示例的
- AI 需要处理的 HTML
- AI 按照我们的指令解析 HTML 后返回的 srcResult （ img url ）

因为 HTML 片段太多了不方便查看就放下面链接的底部，想了解的可以去看看。

https://coder-hxl.github.io/x-crawl/cn/guide/#%E7%A4%BA%E4%BE%8B

2024-04-17 11:50:40 +08:00

回复了 coderhxl 创建的主题 › 推广 › AI+Node.js x-crawl 爬虫：为何传统爬虫已不再是数据抓取的首选？

随着 AI 技术的不断进步和应用场景的不断拓展，这种结合将会发挥出更大的潜力。

2024-04-17 11:47:26 +08:00

回复了 V392920 创建的主题 › 程序员 › V 友们，有没有什么看护小宝宝的技术解决方案？

小米摄像头

2024-03-21 11:47:25 +08:00

回复了 coderhxl 创建的主题 › Node.js › 一个灵活的 Node.js 多功能爬虫库 —— x-crawl

中文文档： https://github.com/coder-hxl/x-crawl/blob/main/docs/cn.md

2024-03-20 21:48:29 +08:00

回复了 coderhxl 创建的主题 › Node.js › 一个灵活的 Node.js 多功能爬虫库 —— x-crawl

@stimw crawlPage API 是用的 puppeteer ，puppeteer 使用者更多些。两者用法上很相似，后续也可以写个新的 API 加上 playwright 。