我在尝试自建一套浏览记录保存和搜索的方案,有人愿意一起搞吗

2023-03-03 20:08:37 +08:00
 FrankAdler

前几天发过一个帖子,https://www.v2ex.com/t/919776 征集到了一些工具和已有的在线服务,折腾下来都不满意,但是意外的发现了有专门做主要内容提取的前端库,比如 mozilla 的 readability 。

我首先排除了手动保存、异步抓去(登录态动态加载的会失败),然后排除本地方案,因为有多台设备

我的现状是:

  1. 使用 singlefile 插件保存 html 到手搓的 webdav 服务
  2. webdav 服务会保存 html 到本地文件,同时提供一个类似 nginx 文件列表的界面查看文件,点击可以直接打开
  3. webdav 服务服务调用 readability 库提取 singlefile 生成 html 的主要内容、标题、原地址、文件路径提交到全文索引,这样能保证需要登录的和动态加载的也能提取到内容
  4. 全文索引使用 zincsearch ,一个 Go 开发的,类似 es 的轻量级索引,自带一个简易 webui 手动搜索找到文件路径和原地址

想做的是:

  1. webdav 保存文件+提交索引这块优化下,犹豫要不要使用数据库( sqlite 、mysql 等)记录状态,方便重建索引等
  2. readability 库是用 nodejs 写的,很多年没写 node 了,感觉现在写的代码不够好
  3. 尝试 readability 以外的内容提取库,比如 https://github.com/postlight/parser
  4. 基于 zincsearch 的数据提供一个类似搜索引擎的界面,功能需要:
    • 产品化的搜索界面,类似 https://demo.historio.us/search/ Google 这样,只是内容是私有的
    • 搜索后当前页面弹出预览,使用 readability 提取的内容(可能需要截断)
    • 搜索后跳转打开网页原地址
    • 搜索后跳转打开保存的 singlefile 生成的 html 文件(可能原地址失效了)
  5. 可能需要给 singlefile 提交一些功能 pr ,比如保存到 webdav 的时候提供更多的信息

所以需要支持的是:

  1. 前端&node:搜索界面开发,内容提取库开发或封装
  2. 熟悉 Go:相关接口开发,这块我自己就可以,帮忙 review 或者偶尔分担下
  3. 熟悉搜索:可能的话想基于 bluge 或 bleve 直接构建索引部分,减少一个组件
  4. 熟悉 chrome 扩展:singlefile webdav 部分功能定制(可能)或者直接向上游提 pr
  5. 其他:多提建议、试用

我会新建一个 github 组,用来放新写的代码,我也会把我已有的成果:webdav 、readability 封装开源出来,这些代码大概率需要重写。

做这些的初衷,就是想把浏览过的网页保存下来,方便以后万一需要再看(所以全文索引很重要),防止原地址失效,或者失去查看的权限和条件等。

希望不会被吐槽白嫖,以及需要征集项目和组名称。

6012 次点击
所在节点    程序员
58 条回复
dannylin
2023-05-01 00:43:13 +08:00
@iX8NEGGn 更新一下。目前已初步完成 WebScrapBook/PyWebScrapBook 2.0 測試版,主要支援伺服端搜尋及改進資料傳輸方式,也提供了不少新 API 。有興趣請參見相關討論串: https://github.com/danny0838/PyWebScrapBook/issues/65
iX8NEGGn
2023-05-01 18:04:21 +08:00
@dannylin 爱了,爱了,赞
Jzdoxc
2023-05-21 13:54:08 +08:00
挺有意思的,毕竟互联网的信息也许会被删除掉,能够本地保存一下十分有必要的
还有仓库的短链地址过期了,能再给个链接吗,我 star 关注一下
FrankAdler
2023-05-22 00:18:20 +08:00
@Jzdoxc
惭愧,因为事多,所以进度比较缓慢,等架子完全搭起来应该就会加快了: https://b64s.uk/.1n.5ns6bIS0dIN6Mz9obYSpeXJvZ29uM2iqd3SwdoluAX5obX5m
zsxing5566566
219 天前
大佬。进展如何?我一直用 archivebox ,但是这个好像没有用户名验证。部署在 vps 之后。大家都可以访问。数据也是一个问题。几百个网页之后,数据以 GB 计算。数据保存也是个问题。最大的问题就是索引了。好像有一些开源的搜索引擎 zincsearch 之类可以使用。

数据保存之后用 zincsearch 之类的搜索引擎分析数据是可行的么?
能在必要的网页文件上做注释么?

大佬?能再发下群?好像链接都失效了?
FrankAdler
218 天前
@zsxing5566566 后端部分进度差不多 50%吧,前端部分进度 0%,说帮忙做前端的 v 友近期有点忙,我又不太熟。
zsxing5566566
218 天前
大佬发下链接?
FrankAdler
218 天前
AppServes
80 天前
@FrankAdler 大佬,再更新下链接? 失效了哇
Jzdoxc
68 天前
我想参与这个项目,可以做一些后端部分的工作
FrankAdler
68 天前
Jzdoxc
68 天前
提了一个 PR ,up 有时间看看呢,顺便方便的话,留个 tg 联系方式或者群组链接
FrankAdler
67 天前
@Jzdoxc 看到了,pr 有点大啊,我 tg https://b64s.uk/.15!wQv8jQA0lQV6Uh90Uv1uU0WhIFAymMDg
AppServes
45 天前
@FrankAdler 最近没上线,链接还是失效了,可以更新一下吗,麻烦了。
AppServes
22 天前
@FrankAdler 上次看就是过期的了,最近一直在线,方便再更新下吗
FrankAdler
21 天前
AppServes
21 天前
@FrankAdler OK ,看到了
mrzhu
15 天前
@hamsterbase #6 官网没写购买后的高级功能是什么?最好写一下吧,哪些功能是免费,哪些需要付费

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/920931

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX