有什么方便的方式 将 整个网页内容 喂给 ChatGpt/Geimini 等 AI

64 天前
 xboxv

背景

有写 AI 不支持访问外部链接, 有些 AI 访问 url 解读的内容和实际网页的内容根本不一致.

比如 对于这个 url https://github.com/prisma/docs/issues/6284 geimin 连 网页的标题 都没有解读 正确.

有且网站使用了 服务端渲染技术, 所以如果你只是访问 URL, 就会得到一个 很简短的 HTML, 实际整个网页的内容是需要等待流式渲染结束之后 才能看到整个网页的实际内容, 甚至有些内容是懒加载, 需要滚动到这个位置才会渲染具体的内容. 所以像 飞书/语雀这样的网页剪切插件 试了一下无法剪贴到整个网页的内容, 只剪切到了一小部分内容.

方案一 截屏整个网页或者 将网页保存为 pdf

这两种方式 对于 AI 解析 PDF 或者图片都是需要使用 ocr, 他们无法读取到文字的 url 链接,网页中的文字的链接 丢失了.存在缺点.

方案二 保存为 markdown.

  1. 简悦这个插件 不好用, 很多网站只能保存到 非常小的一部分内容. 丢三落四.
  2. obsidian 的 web 剪切插件, 目前在用这个插件来将网页保存为 markdown.

方案三

有一些在线将 url 转为 markdown 的网站, 试了几个效果都不理想, 他们的问题都是只获取到了部分网页内容. 大概率是因为上文提到的服务端渲染 流式传输的原因.

问题:

  1. 有什么好的方案将 整个网页的内容喂给 ai
  2. 有什么更为好用方案将 网页转为 markdown. 对于输出的格式不关注, 关注点是网页内容不要丢失.
1331 次点击
所在节点    问与答
9 条回复
aureole999
64 天前
现在应该是 MCP 最方便吧,像 playwright 之类的。找个支持 MCP 的客户端。
amrice
64 天前
我也想知道,有了踢我
xboxv
64 天前
@aureole999 没试过, 两个原因, 1. 我现在都是用 chrome 打开网页版的 ai, 不会去下载 cherry stuio 或者他们的客户端, 原因是不想启动其他软件来使用 ai 2. mcp 大概也是启动 浏览器抓网页吧, 感觉太重了.
先看看有没有其他方案, 后面试试你这个好用不
pike0002
63 天前
tamshy
63 天前
onenote 中转下?
xboxv
63 天前
@pike0002 这个工具也是将网页转为 pdf 或者图片吧? 这种形式的文件交给 ai, ai 也是进行 ocr. 即便是可编辑模式的 pdf, 上传后 ai 也是 ocr 这个 pdf,好像并没有实际解析 pdf 文字中的链接等等信息.
pike0002
63 天前
@xboxv 转换成 markdown 的话是会把链接放在最后的。类似于 paper 最后的引用列表
xboxv
62 天前
@tamshy 怎么中转? 也是剪切吗?
tamshy
62 天前
@xboxv 我能想到的是转到 onenote ,再批量导出 doc ,作为知识库喂给大模型

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1145174

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX