最近使用 kimi 这个 AI,有个疑问,它是如何获取网页内容的?

2024-04-10 21:50:56 +08:00
 zycojamie
kimi 总结网页内容的能力很好用,但使用过程中发现,无论是否是服务端渲染的页面、静态生成的页面或请求接口拿详情的动态页面,kimi 都能获取并总结网页内容。

按我的理解,静态页面或服务端渲染的页面 kimi 直接解析 html 就行,但动态页面应该是要具体分析相关接口响应的内容才能解析的。

像 kimi 这种给任意 url ,实时分析网页内容,大家有什么大致的实现思路吗?
5929 次点击
所在节点    程序员
20 条回复
NerbraskaGuy
2024-04-10 21:53:56 +08:00
我想到的一个测试方法是找个页面里面只有图片,看他能不能提炼图片上的文案
BeautifulSoup
2024-04-10 22:01:30 +08:00
背后就是搜索引擎的 bot ,谷歌能拿到的东西,他都能拿到。所以这一套东西加上大模型,叫做检索增强 RAG
webszy
2024-04-11 00:43:13 +08:00
爬虫呗,像我最常用的就是 puppeteer 。当人这些公司会有更牛逼的人写
foolishcrab
2024-04-11 01:46:38 +08:00
headless browser
搜搜看看就懂了
yqcode
2024-04-11 02:46:42 +08:00
估计是无头浏览器用于去获取网页内容,但是用户量一多,无头浏览器也占资源,不清楚有没有更优解的,否则就是叠业务机器,而大模型的能力就不需要内容去整理得多规范,只需要按照读文本总结那样去做处理?当然用户量多要考虑的优化细节就不少了,如何用尽可能少的提示词去得出尽可能准确的答案,也是一个研究的大方向。。。
noahlias
2024-04-11 07:59:38 +08:00
官方描述的是 第三方抓取 网页等
```
是否开放类似 Kimi 智能助手中的搜索接口?

目前并没有开放搜索的计划,API 用户可以使用例如 Apify 、Crawlbase 或者 ArchiveBox 等第三方解决方案。
```
但是之前看同类型 elmo.chat 介绍类似的技术方案的时候 html parser 用的是阅读模式
( https://github.com/mozilla/readability)

详情可以看这个技术方案介绍
https://x.com/yadong_xie/status/1774672630194520283
SayHelloHi
2024-04-11 08:43:52 +08:00
noahlias
2024-04-11 08:48:15 +08:00
@SayHelloHi 这个不一样好吗 这个是用 metasearch +webarchive 来获取搜索信息的 它等同于搜索引擎
而且需要你部署一个服务 也不是实时的 而且它只获取了网站的 snippet 和 bing/google 这些搜索引擎 API 返回的结果差不多 然而你要获取网站的大纲和详细信息 一定是要用到 html parser 的
dbak
2024-04-11 09:22:05 +08:00
我相同的问题问了 kimi 和 chat-gpt 给出了一样的答案 这是为鼠么呢
GGMM
2024-04-11 09:34:46 +08:00
https://www.deeplearning.ai/the-batch/issue-243/

这篇博客简单介绍了 LLM 如何访问网页,以及总结信息,也就是二楼说的 RAG 技术。用原本搜索引擎拿到的结果作为上下文给 LLM 使用,降低模型胡言乱语的程度。
hnliuzesen
2024-04-11 10:04:06 +08:00
无头浏览器?不过也不是所有网页都能获取内容的,我遇见过提示说无法访问我提供的网页的。
fredweili
2024-04-11 10:18:13 +08:00
都有 SerpApi 这种成熟工具了,langchain 也有提供
nedqqcc
2024-04-11 11:13:29 +08:00
@yqcode headless browser 直接长期开着当服务端,url 进 mq ,然后 browser worker 从 mq 取 url 爬就完事了人,scrapy 扩展项目不少这种
encro
2024-04-11 13:50:34 +08:00
@webszy 说不定和你一样呢,puppeteer 不就谷歌吗
AoEiuV020JP
2024-04-11 15:30:36 +08:00
感觉并没有真的解析动态网页, 我问个 flutter 版本它死活回答不对,直接给链接就告诉我没有列出版本号,
binaryify
2024-04-11 19:37:50 +08:00
@AoEiuV020JP 会解析的,之前用 it 之家最新的文章丢过去,分析出来的和那篇文章是对的上的,就几分钟前发布的文章
spicynotes
2024-04-11 22:27:32 +08:00
@dbak 100%一样吗?能转发看下?
allentown0406
2024-04-12 14:38:05 +08:00
headless browser
noahlias
2024-04-14 11:55:48 +08:00
@AoEiuV020JP 我看了一下 因为阅读模式确实 他的确没有解析出来一些结果


这让我确信它确实用到了一些 html 的 parser
但是当你用一个插件 ( https://chromewebstore.google.com/detail/kimi-copilot-%E7%BD%91%E9%A1%B5%E6%80%BB%E7%BB%93%E5%8A%A9%E6%89%8B/icmdpfpmbfijfllafmfogmdabhijlehn)
结果效果相当好


但是当你深入问一些详细信息的时候 说明 parser 还是不够好 因为它是读取 html 进去的一些表格信息并没有正确排列


另一个 elmo.chat 它应该是利用了生成的 html 但是详细信息 也是没识别到在乱说
pth1040080742
2024-04-25 21:30:05 +08:00
我最近也写了一个 kimi 小助手的浏览器插件,里面也实现了网页总结的功能。

https://ex.noerr.eu.org/t/1034877#reply9

可以简单说下网页总结的实现思路:
1. 当页面渲染完成后,将 html 提取出来(指定区域),然后去标签,取出人类可阅读的文字再喂 kimi 进行总结
2. 如果是视频网页,则通过技术手段获取字幕,再喂给 kimi

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1031435

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX