V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
FrankAdler
V2EX  ›  程序员

保存浏览过的网页并搜索有哪些好的方案

  •  
  •   FrankAdler · 216 天前 · 1980 次点击
    这是一个创建于 216 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前用 SingleFile 自动保存到 webdav ,但是搜索是个问题,理想情况是有个 web 界面,目前没有找到合适的工具,暂时是用命令行 find+grep ,感觉不太方便。

    了解了下两个轻量级的全文搜索:ZincSearch 、blevesearch ,还没深入是看,但是感觉也应该需要想办法把网页内容导入到引擎里面,不知道还有没有其他的方案。

    尽量轻量级一些,ES 太重了首先排除掉吧。

    第 1 条附言  ·  215 天前
    archivebox 的浏览器插件用起来很怪异,提交到 archivebox 有延迟,没有规律,而且不能设置验证,等于是自己搭的服务公开了。。。
    22 条回复    2023-03-04 14:58:03 +08:00
    TrembleBeforeMe
        1
    TrembleBeforeMe  
       216 天前   ❤️ 3
    FrankAdler
        2
    FrankAdler  
    OP
       216 天前
    @TrembleBeforeMe 这个看起来好强,我先研究下看看
    caomu
        3
    caomu  
       216 天前 via Android
    前段时间还讨论了一下
    https://www.v2ex.com/t/916365
    tool2d
        4
    tool2d  
       216 天前
    自己写一个 vscode 插件,find in files 文本搜搜嘛可以了。

    低频需求,性能要求不需要那么高。
    FrankAdler
        5
    FrankAdler  
    OP
       216 天前   ❤️ 1
    @caomu https://www.v2ex.com/t/798536 lockheart 提到的 https://historio.us 也是一种选择,感觉很类似私人引擎了
    FrankAdler
        6
    FrankAdler  
    OP
       216 天前
    @tool2d 可能还不如 find+grep 呢,就是要 ssh 下
    vtexer
        7
    vtexer  
       216 天前
    语雀的剪存
    vtexer
        8
    vtexer  
       216 天前
    飞书的剪存
    fds
        9
    fds  
       216 天前
    前两天看到 https://github.com/omnivore-app/omnivore 不过我没用过
    tool2d
        10
    tool2d  
       216 天前
    @FrankAdler mhtml 需要解包,至少不去搜索 base64 里的图片。

    还需要定位跳转,搜出来结果,你总要看一下上下文吧。

    还有一些不是 utf8 格式的页面需要转换,又或者不是一个个独立文件,文件多了后,是定期 zip 打包这种形式存在于磁盘上的。

    退一万步,就算直接用 find 命令行,我也会写一个自己特化的管道过滤工具,码农不就是写工具的。
    ipfox
        11
    ipfox  
       216 天前
    chrome 插件 Chrono Power Action
    Giftina
        12
    Giftina  
       216 天前   ❤️ 2
    SingleFile 存到本地后搭配 hamsterbase 即可
    Huelse
        13
    Huelse  
       216 天前
    感觉有点像 onetab 的功能
    abcdxe2v
        14
    abcdxe2v  
       216 天前   ❤️ 1
    @FrankAdler
    historio.us 这个不行,很多网页抓取不到(可能是因为动态加载的原因)
    由于我需要正则,所以我是 SingleFile 保存后,用 FileLocator Pro (因为是正则,所以无索引)
    ztbz123
        15
    ztbz123  
       215 天前
    @abcdxe2v 我也这样,但 FileLocator Pro 检索和预览 HTML ,是源代码 html 标签的形式,html 标签和样式比较多,看着不太直观方便,有没有什么解决方法?比如,能不能设置 FileLocator Pro 预览 HTML 格式文件时,可通过浏览器预览展示
    zictos
        16
    zictos  
       215 天前
    试过很多,没一个好用的,很多明明看过的文字却搜不到。现在很多网站又都是 js 动态加载,就更可能搜不到了
    FrankAdler
        17
    FrankAdler  
    OP
       215 天前 via iPhone
    @zictos archivebox 可以抓起 js 动态加载的(基于无头浏览器)
    FrankAdler
        18
    FrankAdler  
    OP
       215 天前 via iPhone
    @ztbz123 可能保存的时候不要 css 样式会好很多?毕竟内容才是最重要的
    tinola
        19
    tinola  
       215 天前
    以前用网文快捕 CyberArticle 可以离线保存,后来不更新了,可惜。现在用 onetab.
    edis0n0
        20
    edis0n0  
       215 天前
    @TrembleBeforeMe #1 这个要登录的页面就不行,好文章很多都要登陆才能看
    abcdxe2v
        21
    abcdxe2v  
       215 天前
    @ztbz123
    “通过浏览器预览展示”
    这样不慢吗。。。浏览器打开要渲染,太慢了。你可以手动使用浏览器打开特定的文件
    woyaojizhu8
        22
    woyaojizhu8  
       212 天前
    recoll 最合适,而且也有 webui
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2091 人在线   最高记录 6067   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 09:05 · PVG 17:05 · LAX 02:05 · JFK 05:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.