请教一下大伙是怎么样保存互联网文章?

2023-05-18 15:53:09 +08:00
 dada88xyxy

经常会遇到一个事儿,在 pc 的时候,感觉需要保存的文章会收藏在浏览器里面,然后下次就可以点击访问。但是这样会遇到 2 个问题,1 个是 404 了;另外 1 个是不能全文搜索,有时候不记得在哪个网站,只记得某个关键词,想搜索可以找出来。

在手机浏览器、微信看到的文章亦是如此,请教各位有什么好方式?

需求:离线保存;全文搜索

16018 次点击
所在节点    程序员
129 条回复
boshok
2023-05-18 23:08:59 +08:00
evernote web clipper
catsnl
2023-05-18 23:09:50 +08:00
简悦+notion
91pornshanghai
2023-05-18 23:34:23 +08:00
有一个 chrome 插件叫 SingleFile ,可以把网页保存为单个 html 文件
TabGre
2023-05-18 23:35:14 +08:00
@mauve 我也适用这个软件 为什么不适用它自己的 clip 呢?另请具体工具转 pdf 的
CatCode
2023-05-18 23:58:02 +08:00
SingleFile 插件同一个作者还做了个支持压缩的版本 SingleFileZ
zhengkk
2023-05-19 00:21:01 +08:00
我用的是 Chrome 的阅读清单功能
piku
2023-05-19 00:42:32 +08:00
以前是丢收藏夹。现在分两种情况:一种是网页复制到 OneNote 粘贴(会自动带上格式和来源链接)。另一种是捡重点重写到笔记。
yir
2023-05-19 02:23:38 +08:00
苹果全家桶的话就 Anybox 吧,用过的最好用的收藏夹 app
yir
2023-05-19 02:25:11 +08:00
Anybox 最近还开放 API 可以跟 SingleFile 联动,还有 Raycast Alfred Popclip 的插件
MetroWind
2023-05-19 02:34:33 +08:00
给你们推荐个神器: https://github.com/Y2Z/monolith
fuyun
2023-05-19 02:35:46 +08:00
自建一个 CMS ,接入 ElasticSearch ,或者直接用 WordPress 等,再找一个 ES 插件。
keegan
2023-05-19 03:01:28 +08:00
@mamili maoxian
hackpro
2023-05-19 04:10:55 +08:00
SingleFile
wenjing22
2023-05-19 04:28:03 +08:00
xsen
2023-05-19 06:04:24 +08:00
notion
hamsterbase
2023-05-19 08:38:39 +08:00
@dada88xyxy


常见的网页归档格式有 MHTML 和 webarchive 。这两种格式都可以将网页的全部图片、样式和 HTML 保存为一个文件。

操作系统其实自带了保存网页归档的功能:

安卓 Chrome:点击收藏旁边的下载按钮,保存格式为 MHTML 。
iOS Safari:点击分享 > 点击选项 > 点击网页归档 > 点击储存到文件,保存格式为 webarchive 。
Mac Safari:可以按 Ctrl + S 选择网页归档,保存格式为 webarchive 。
PC Chrome:可以按 Ctrl + S 选择单文件,保存格式为 MHTML 。

你也可以使用 SingleFile 插件,将网页保存为单个 HTML 文件。

这些方式可以很好地实现网页的保存和查看。但很难实现网页的检索、管理以及进一步的批注和消化。

为了更好地管理我之前保存的几千个 html 文件,我开发了 HamsterBase 。它支持解析 HTML 、webarchive 和 MHTML 。导入后支持批注、全文搜索。


hamsterbase 支持自动导入,放到文件夹下可以自动导入。
也提供了 API , 可以直接和 singilefile 联动,singilefile 可以一键保存网页到 hamsterbase 。

⚠️:hamsterbase 不会修改任何用户导入的文件, 只会压缩后储存。
⚠️:hamsterbase 不存储任何用户数据,所有数据都在你的本地。
tedzhou1221
2023-05-19 09:03:35 +08:00
cubox
helooo
2023-05-19 09:15:33 +08:00
飞书剪存
dada88xyxy
2023-05-19 09:17:33 +08:00
感谢各位大佬啊,好激动好激动,好多干货
LavaC
2023-05-19 09:34:45 +08:00
@wqq096737ink 因为大部分剪藏都不太能保存页面结构。比如我要保存一个带评论区的微博,保存的时候就会发现类似用户头像、点赞数、图标这类元素在缺少 css 后都会占用太多剪藏后的文章内容,降低了可读性。倒不如先把网页连带 css 和 js 保存下来,保证最原始的阅读体验不变,后续你用 vscode 在文件夹全局搜索也好,另外剪藏也好,都有个可操作区间。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/941024

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX