有没有自动保存所有阅读过的网页上的内容的扩展

2021-08-28 19:16:05 +08:00
 mercury233

虽然人是有记忆的,互联网也是有记忆的,但有些东西终究会因各种原因从互联网中消失。

有没有自动的办法将每天看到的内容保存到自己的硬盘上呢?

人话版本:比如有时候看过的某个网页突然 404 了,只能从采集站找到一些踪迹,web archive 爬取的频率远远不够用,想至少让自己的电脑自动记住。

3005 次点击
所在节点    奇思妙想
20 条回复
Ehend
2021-08-28 19:17:00 +08:00
这得多大的存储空间?
mercury233
2021-08-28 19:19:59 +08:00
@Ehend 对于大部分网站都可以只保留文字,而且只在页面停留超过一段时间的情况下才保存
agagega
2021-08-28 19:23:35 +08:00
想得更进一步:大部分人大部分时候访问的网页都属于少数网站,剩下的大部分网站也是用常用框架搭建的( WordPress 、Discourse 等),可以用类似 Adblock 的规则抓正文。再剩下的个人网站,几乎也可以用 Readability 搞定。
mightofcode
2021-08-28 20:18:30 +08:00
不仅会消失 还会被删除 lol
chaleaoch
2021-08-28 20:27:23 +08:00
自动? 全部?
手动部分的话 有网页剪辑工具.
fox0001
2021-08-28 20:34:35 +08:00
没必要吧?
ClericPy
2021-08-28 21:17:56 +08:00
我能用 chrome cdp 写一个加载完毕自动保存 mhtml 或者截图, 但是感觉没啥意思...
mscststs
2021-08-28 22:30:25 +08:00
https://chrome.google.com/webstore/detail/worldbrains-memex/abkfbakhjpmblaafnpgjppbmioombali

之前用过这样一个插件,但是没有保存网页这么强大,只是把内容存下来方便索引,下次可以直接在地址栏搜到。

而且挺难用的
cmdOptionKana
2021-08-29 00:52:39 +08:00
比如浏览本页,第二次浏览时有新回复,是保留两个版本,还是只保留新版本?

如果保留每次浏览的版本,占用空间必然爆炸;如果只保留新版,万一新版有内容被删除怎么办?
a90120411
2021-08-29 08:16:10 +08:00
我写了一个 Chrome 插件,把历史记录保存到云端数据库,每次打开网页的时候判断是否访问过,并在页面中显示一个访问状态的标识。
opengps
2021-08-29 10:44:39 +08:00
浏览器给保存的历史访问记录其实就差不永久了。现在的网页抓取有些难度,动态加载之类的问题会让留存的数据出现各种不能离线使用的结果。存了太大,不存又有失效问题。真看到了对自己重要的数据,目前可能全靠自己复制存文档才靠谱
moioooo
2021-08-29 10:47:56 +08:00
觉得以后可能会“消失”的网页,用简悦吧。
chrome (或者其他浏览器)插件+ios jsbox 脚本,都可以实现剪藏离线 html,也可以发送剪藏到各种笔记软件上,也有离线稍后读功能。
我一般是剪藏或者存离线 html 。有些软件只是存了个书签,实际内容并没有存离线,导致存了个寂寞,所以选来选去最后选了简悦。

整体来说,需要永久保存的网页,不多。但是真消失了,就挺难受。
sbilly
2021-08-29 12:31:06 +08:00
你有地方存吗?
zxsczx
2021-08-29 15:58:40 +08:00
确实 有时候想起收藏夹里的网站 点进去没了 还挺难受的
mercury233
2021-08-29 17:45:39 +08:00
@cmdOptionKana 理想情况应该是保留差分
vitalbo
2021-08-29 21:30:58 +08:00
记得好早之前的 google desktop 有这个功能
lockheart
2021-08-30 01:52:26 +08:00
你想要的可能是这个 https://historio.us ,自动存档浏览过的网页,付费后上限一万个。建议搭配[树形历史记录插件]( https://chrome.google.com/webstore/detail/tree-style-history/khcenbpnhbeplojhaolbpldmoppicold?hl=zh-CN)一起使用
lockheart
2021-08-30 01:58:46 +08:00
本地储存开源解决方案可以使用 ArchiveBox 的自动存档浏览器历史记录功能,详细使用方法参考官方文档,功能十分强大(还可以做到在存档过程中使用 cookie,使用 adblock 去广告规则)地址:( https://github.com/ArchiveBox/ArchiveBox
aasdkl
2021-08-30 13:59:12 +08:00
我前段时间看到一个有点意思的(但是找不到网站了)
是定时对用户的窗口截屏,然后搜索的时候是通过 OCR 进行搜索
FlyingShark
2021-09-10 09:09:48 +08:00
@opengps chrome 历史记录只能看 3 个月啊,永久怎么做到的?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/798536

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX