做了一个 Chrome 插件,自动把访问过的网页全文保存到自己的 WebDAV 上

2023-02-15 15:45:01 +08:00
 greensea

先丢插件地址:

https://chrome.google.com/webstore/detail/page-auto-archiver/inbfhpapklekaajibkklfjieklbbmmke/related

做这个东西起源于我自己的一个很实际的需求:有时候我想找前几天刚刚看过的网页的资料,但是网页标题已经不记得了,所以没办法通过历史记录去搜索,但是我记得网页上的文字内容,如果可以根据网页内容搜索历史记录就好了。

于是就做了这个插件,安装之后,日常浏览的时候会默默地把网页全文保存到自己的 WebDAV 上,等到想搜索的时候,直接去插件里搜索就好了。(当然更极端也更快的方法是去服务器上 grep )

反正做都做了,干脆就完善一下丢出来,万一有和我一样收集癖的人呢。

4404 次点击
所在节点    分享创造
45 条回复
mhqschen
2023-02-15 15:52:36 +08:00
我的密码里也有"@"……懵逼了~
tool2d
2023-02-15 16:00:01 +08:00
我也做了一个插件,只不过是保存所有历史 URL 到本地 indexdb 里。

原因是 chrome 默认会清空三个月前的历史记录!而且无法设置。

这点完全没办法忍,凭什么动我数据啊?
eaststarpen
2023-02-15 16:00:36 +08:00
"有时候我想找前几天刚刚看过的网页的资料,但是网页标题已经不记得了" 同样的情况遇到很多次了。

实际上几天前的内容在历史记录里翻一翻还是能找到的,只不过效率太低。 几个月甚至半年那种就麻烦了。

不知道 op 数据保留 /清理的策略是什么。如果把几个月所有浏览记录全文保留感觉存储代价太大,查询效率可能也不高。

我的做法是利用简悦的稍候读功能,遇到觉得可能以后会复读的 post 就 dd 保持下来,固定时间整理。

这样做虽然麻烦了点但能让我保持内容敏感度和养成定期回顾的习惯
greensea
2023-02-15 16:03:34 +08:00
@mhqshen 这是一个笔误,你不说我都还没发现,捂脸……
@eaststarpen 没有清理功能,手动清理,反正会用 WebDAV 的都会……其实我自己是保存到 NAS 上的,纯文本再多还能给我撑爆了不成。话说历史记录……我一天几百个网页的浏览量,想找一天的都难,别说几天了
HeyWeGo
2023-02-15 16:11:09 +08:00
整个网页直接离线下来?显示效果如何呢?目前自己 nas 上弄了个 linkding ,当收藏夹用
TrembleBeforeMe
2023-02-15 16:13:24 +08:00
保存的是网页而不是纯文本吗
caomu
2023-02-15 16:14:54 +08:00
类似项目:

WorldBrain's Memex https://sspai.com/post/44088 这个据说现在只能索引书签的正文了

https://www.v2ex.com/t/888303

https://meta.appinn.net/t/topic/36432

还是很期待类似的项目的,个人觉得未来趋势或许就是 ChatGPT 类应用本地化,可以支持语义搜索,那就完全相当于外置大脑了。
caomu
2023-02-15 16:22:25 +08:00
另一个讨论 https://meta.appinn.net/t/topic/10011

楼主可以考虑增加建立本地索引的功能?
TrembleBeforeMe
2023-02-15 16:35:21 +08:00
greensea
2023-02-15 16:49:41 +08:00
@HeyWeGo 显示就像没有 CSS 的网页,反正只是回溯一下文字内容而已,不是经常看,显示效果完全无视
@TrembleBeforeMe 保存的是存文本,主要是考虑到连图片一起保存的话太大了,而且我自己主要是需要找文字内容而已。
@caomu 浏览器限制太大,本地索引不好做,真要做的话还是在服务端实现比较好,但是服务端实现的话部署就比较困难,不像现在这样随便整个 NAS 就行


我倒是想做一个类似 Rewind 的东西,就直接屏幕截图,然后 OCR 文字,全文索引
timeance
2023-02-15 16:50:30 +08:00
我是看着觉得不错的就通过插件保存在 zetero 里 有空就手动标注 tag ,当文献来管理...
xujinhui1
2023-02-15 16:58:38 +08:00
刚安装了插件,报"加载配置文件失败,无法浏览或搜索文件"
greensea
2023-02-15 17:04:03 +08:00
@xujinhui1 应该是要先设定 WebDAV 链接,然后才能用,这地方的提示应该是没做好
wanguorui123
2023-02-15 17:06:21 +08:00
如果能自动生成 mht 单文件保存就好了
wanguorui123
2023-02-15 17:08:53 +08:00
或者截屏保存也行
caomu
2023-02-15 17:17:11 +08:00
保存 mht 会不会太大啊
puck260
2023-02-15 17:19:56 +08:00
maybe 网页长图也是一个方向,只需要文件名是网址
hamsterbase
2023-02-15 17:56:09 +08:00
如果想自动保存,可以试试看 singlefile

singlefile 支持自动保存浏览过的网站,还可以设置停留多久才保存。

除了保存到本地 ,singlefile 支持保存到 webdav GitHub


顺便提一下,我开发了一个稍后读工具 hamsterbase 。 支持导入 singlece ,mhtml ,webarchive 等常见网页格式。 导入后支持批注,全文搜索,打标签。
hamsterbase 完全离线,有桌面版和 docker 版。 看我之前发的帖子就可以了
Bingchunmoli
2023-02-15 17:59:54 +08:00
有需求做不出来,见过开源项目通过 chrome ,py pdf 等各种方式留存以方便后续寻找及原站 404 后仍然可用,都有点麻烦
ourongxing
2023-02-15 20:01:25 +08:00
直接用 cubox 吧,可以用快照。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/916365

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX