V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  coderhxl  ›  全部回复第 4 页 / 共 4 页
回复总数  78
1  2  3  4  
2024-04-19 17:00:40 +08:00
回复了 coderhxl 创建的主题 推广 AI+Node.js x-crawl 爬虫:为何传统爬虫已不再是数据抓取的首选?
@yzding 结构是可能不会经常变更,但是类名会经常发生改动,但这种东西也说不准的,没人能知道下一秒会发生什么。也可以先让 AI 自动生成选择器,然后缓存选择器,下次爬取就用缓存的,当然如果类名发生改变就让 AI 重新获取一下。你的想法也不错!
直接用 AI 提取所需的内容也很便捷,https://coder-hxl.github.io/x-crawl/cn/guide/#%E7%A4%BA%E4%BE%8B2 这是我新写的 示例 2 ,让爬虫和 AI 获取豆瓣电影排行榜的电影信息,这个示例可能更容易理解 AI 对于提取内容的作用,您也可以瞧瞧,特别是查看 AI 返回的 filmResult (电影的信息)
2024-04-19 14:23:30 +08:00
回复了 coderhxl 创建的主题 推广 AI+Node.js x-crawl 爬虫:为何传统爬虫已不再是数据抓取的首选?
@yzding 忘了还有一点,这个示例我用的是免费的 API Key ,会进行中转,并不是直接直连 OpenAI ,也可能造成慢。
2024-04-18 10:44:19 +08:00
回复了 coderhxl 创建的主题 推广 AI+Node.js x-crawl 爬虫:为何传统爬虫已不再是数据抓取的首选?
@yzding 查看 AI 需要处理的 HTML:[由于内容太多此处放不下,就只能放在此链接示例底部的 查看 AI 需要处理的 HTML]( https://coder-hxl.github.io/x-crawl/cn/guide/#%E7%A4%BA%E4%BE%8B),当时传入了大量的 HTML
2024-04-18 10:42:44 +08:00
回复了 coderhxl 创建的主题 推广 AI+Node.js x-crawl 爬虫:为何传统爬虫已不再是数据抓取的首选?
@yzding AI 的处理时间跟传入的数据量有关
2024-04-17 17:13:43 +08:00
回复了 coderhxl 创建的主题 推广 AI+Node.js x-crawl 爬虫:为何传统爬虫已不再是数据抓取的首选?
即使网站后续的更新导致类名或结构发生改变也能正常爬到数据,因为我们不再依赖于固定的类名或结构来定位并提取所需信息,而是让 AI 理解并解析网页的语义信息,从而更高效、智能和便捷提取所需数据。
2024-04-17 15:10:56 +08:00
回复了 coderhxl 创建的主题 推广 AI+Node.js x-crawl 爬虫:为何传统爬虫已不再是数据抓取的首选?
目前新版 x-crawl 的 AI 辅助功能是依靠 OpenAI ,后续还可能加入其他 AI 。
2024-04-17 12:33:58 +08:00
回复了 coderhxl 创建的主题 推广 AI+Node.js x-crawl 爬虫:为何传统爬虫已不再是数据抓取的首选?
@mightybruce 感谢您
2024-04-17 12:01:40 +08:00
回复了 coderhxl 创建的主题 推广 AI+Node.js x-crawl 爬虫:为何传统爬虫已不再是数据抓取的首选?
了解 AI 和 x-crawl 爬虫结合示例的
- AI 需要处理的 HTML
- AI 按照我们的指令解析 HTML 后返回的 srcResult ( img url )

因为 HTML 片段太多了不方便查看就放下面链接的底部,想了解的可以去看看。

https://coder-hxl.github.io/x-crawl/cn/guide/#%E7%A4%BA%E4%BE%8B
2024-04-17 11:50:40 +08:00
回复了 coderhxl 创建的主题 推广 AI+Node.js x-crawl 爬虫:为何传统爬虫已不再是数据抓取的首选?
随着 AI 技术的不断进步和应用场景的不断拓展,这种结合将会发挥出更大的潜力。
2024-04-17 11:47:26 +08:00
回复了 V392920 创建的主题 程序员 V 友们,有没有什么看护小宝宝的技术解决方案?
小米摄像头
2024-03-21 11:47:25 +08:00
回复了 coderhxl 创建的主题 Node.js 一个灵活的 Node.js 多功能爬虫库 —— x-crawl
2024-03-20 21:48:29 +08:00
回复了 coderhxl 创建的主题 Node.js 一个灵活的 Node.js 多功能爬虫库 —— x-crawl
@stimw crawlPage API 是用的 puppeteer ,puppeteer 使用者更多些。两者用法上很相似,后续也可以写个新的 API 加上 playwright 。
2024-03-20 21:46:21 +08:00
回复了 coderhxl 创建的主题 Node.js 一个灵活的 Node.js 多功能爬虫库 —— x-crawl
crawlPage API 是用的 puppeteer ,puppeteer 使用者更多些。两者用法上很相似,后续也可以写个新的 API 加上 playwright 。
2024-03-20 19:02:47 +08:00
回复了 coderhxl 创建的主题 Node.js 一个灵活的 Node.js 多功能爬虫库 —— x-crawl
@aikilan 感谢您的支持❤️,使用过程中遇到的问题都可以在 GitHub Issues 中提 Issues ,我会尽快解决。
2024-03-20 19:00:38 +08:00
回复了 coderhxl 创建的主题 Node.js 一个灵活的 Node.js 多功能爬虫库 —— x-crawl
@laoona 感谢您的支持❤️
2024-03-20 15:42:04 +08:00
回复了 coderhxl 创建的主题 Node.js 一个灵活的 Node.js 多功能爬虫库 —— x-crawl
@Motorola3 感谢您的支持
2024-03-20 14:30:18 +08:00
回复了 coderhxl 创建的主题 Node.js 一个灵活的 Node.js 多功能爬虫库 —— x-crawl
可以做自动化操作
2024-03-20 11:59:57 +08:00
回复了 coderhxl 创建的主题 Node.js 一个灵活的 Node.js 多功能爬虫库 —— x-crawl
快来体验一下吧
1  2  3  4  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5715 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 99ms · UTC 02:29 · PVG 10:29 · LAX 19:29 · JFK 22:29
Developed with CodeLauncher
♥ Do have faith in what you're doing.