做了一个 Chrome 插件,自动把访问过的网页全文保存到自己的 WebDAV 上

2023-02-15 15:45:01 +08:00
 greensea

先丢插件地址:

https://chrome.google.com/webstore/detail/page-auto-archiver/inbfhpapklekaajibkklfjieklbbmmke/related

做这个东西起源于我自己的一个很实际的需求:有时候我想找前几天刚刚看过的网页的资料,但是网页标题已经不记得了,所以没办法通过历史记录去搜索,但是我记得网页上的文字内容,如果可以根据网页内容搜索历史记录就好了。

于是就做了这个插件,安装之后,日常浏览的时候会默默地把网页全文保存到自己的 WebDAV 上,等到想搜索的时候,直接去插件里搜索就好了。(当然更极端也更快的方法是去服务器上 grep )

反正做都做了,干脆就完善一下丢出来,万一有和我一样收集癖的人呢。

4525 次点击
所在节点    分享创造
45 条回复
Champa9ne
2023-02-18 09:39:08 +08:00
楼主感觉保存成类似用 save page we 插件下载下来的那种包含图片的 html 的形式还是有必要的。刚才粗略看了一下昨天刷的网页大概在 800 左右,一个正经技术贴含图片下载下来大概大小在 5-10MB ,这样算一天估计在 4-8g 。

800 这个值只是没排除下面说的肯定没必要下载的访问和我昨天几乎屁事没干一直在刷网页的前提下的测量值。

而且因为也不是所有浏览的网页都有必要下载,感觉可以在下载的时候过一次正则匹配,因为有时候访问主站或者打开翻译器,在搜索引擎上搜索关键字不打开帖子这种操作反而会产生大量浏览记录。

比如访问 https://www.v2ex.com/则不下载,访问 https://www.v2ex.com/t/*则下载,访问 https://translate.google.com/则不下载这样。

实际上感觉如果是正经干活,一天按匹配规则刷下来可能 200-400 贴左右需要被下载就顶天了。感觉再多一天的存储量可能在两三 g 左右,如果是丢到 nas 上那应该问题不大吧。
yy915cn
2023-02-18 12:59:52 +08:00
webdav 连接不了(其它软件挂载是没问题的,网页打开也没问题)
http://xx:xx@xx.com:8080/data/
然后试了 SingleFile ,也连接不了 webdav 。。。这种是什么问题呢
Magicmadoka
2023-03-02 15:06:01 +08:00
感谢 OP 开发的插件,我用的是世纪互联 OneDrive 作为 webdav 服务器,体验相当不错,就是使用的时候发现在 YouTube 看视频的时候,每隔十几秒插件就会数字+1 ,实际上又没有保存内容,不知道是不是 bug 。
yy915cn
2023-03-03 22:08:29 +08:00
webdav 错误提示
This server could not verify that you are authorized to access the document requested. Either you supplied the wrong credentials (e.g., bad password), or your browser doesn't understand how to supply the credentials required.
HuPu
2023-03-11 09:16:04 +08:00
@yy915cn 同样的问题 我没怎么用过 webdav 随便用 docker 跑了个
docker run --restart always -v ~/srv/dav:/var/lib/dav \
-e AUTH_TYPE=Digest -e USERNAME=alice -e PASSWORD=secret1234 \
--publish 80:80 -d bytemark/webdav

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/916365

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX