V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
f1ynnv2
V2EX  ›  问与答

求推荐一个能检索内容的 pdf 文件管理软件

  •  
  •   f1ynnv2 · 83 天前 · 1486 次点击
    这是一个创建于 83 天前的主题,其中的信息可能已经有所发展或是发生改变。

    因为平时会把一些论文、文章转成 pdf 保存,时间久了 pdf 文件非常多,所以想找个 pdf 管理软件,想要的特性如下:

    1. 能检索 pdf 标题和内容
    2. 最好能给 pdf 文件打标签
    3. B/S 架构,这样可以部署到一台服务器上,多端访问

    谢谢。

    30 条回复    2023-03-15 16:53:55 +08:00
    jamosLi
        1
    jamosLi  
       83 天前
    有了踢踢我
    koto
        2
    koto  
       83 天前
    abbyy ?不过是收费的
    DigitalG
        3
    DigitalG  
       83 天前
    devonthink 有 server 版本,一次性付费,虽然比较贵。
    DigitalG
        4
    DigitalG  
       83 天前
    @DigitalG 不过除了 server ,client 只有 Apple 生态的版本
    shalingye
        5
    shalingye  
       83 天前 via Android
    calibre ,能写元数据,自带 web 服务,但似乎不能检索 pdf 内容。
    virlaser
        6
    virlaser  
       83 天前
    目前用的 NAS 实现这个功能
    对于可以复制文字的 PDF ,NAS 可以直接索引里面的文字,直接搜索
    对于不能复制文字的 PDF ,需要先通过 OCR 软件识别一下(之前用的 PDFElement ,不过好像调的还是 abbyy 引擎),在 PDF 上覆盖一层透明的文字层,然后再保存到 NAS 里面,这样就可以索引了
    NAS 本身的文件管理提供了打标签、多端访问和索引的功能
    mmm159357456
        7
    mmm159357456  
       83 天前   ❤️ 1
    为啥没人说 zotero 和 endnote
    tool2d
        8
    tool2d  
       83 天前
    自己写一个 pdf 搜索并不难。你可以用工具批量 pdf to txt ,然后针对 txt 做文本搜索,就会方便太多。
    f1ynnv2
        9
    f1ynnv2  
    OP
       83 天前
    @mmm159357456 调研过 zotero ,这个好像就是个单体软件,只是能通过 webdav 同步,离 web-based 有些远。endnote 没接触过,我去了解下。
    f1ynnv2
        10
    f1ynnv2  
    OP
       83 天前
    @tool2d 理论上确实是可以自己写,但是时间花在这上面不太值。
    f1ynnv2
        11
    f1ynnv2  
    OP
       83 天前
    找到一个开源的,似乎完美符合我的要求。
    https://github.com/papermerge/papermerge-core
    litengyu86
        12
    litengyu86  
       83 天前
    @koto abbyy 丢丢贵
    TerranceL
        13
    TerranceL  
       83 天前
    mendely
    f1ynnv2
        14
    f1ynnv2  
    OP
       83 天前
    @f1ynnv2 试了下,功能是有,但是不稳定。。
    NutsoGao
        15
    NutsoGao  
       83 天前
    插眼,有了我踢踢我
    beyondex
        16
    beyondex  
       83 天前
    sea desktop search ,满足 1 ,3 B/S 架构,这样可以部署到一台服务器上,多端访问
    不过浏览器访问需要手动配置,倒也不复杂,不提供傻瓜化开关。
    aitianci
        17
    aitianci  
       83 天前
    mendeley 和 zotero 确实符合条件,我现在在用的是 zotero ,可以手动导入 pdf 然后它自己会 OCR 搞一套检索,标题内容都能搜索,至于打标签那是基本功能,科研工具就是做笔记方便。另外可以用坚果云的 webdav 同步,多端访问也不成问题。
    kukat
        18
    kukat  
       83 天前
    paperless-ngx
    congjinyebaiya
        19
    congjinyebaiya  
       83 天前 via iPhone
    zotero 貌似可以
    wanghaoyang
        20
    wanghaoyang  
       83 天前
    Confluence
    hicdn
        21
    hicdn  
       83 天前
    继续安利 recoll ,https://www.lesbonscomptes.com/recoll/pages/index-recoll.html 支持全平台,功能十分强大,压缩包里的文件内容都可以索引,还能自己扩展可索引的文件后缀名,比如 xmind 的思维导图。
    mmdsun
        22
    mmdsun  
       83 天前
    我用的 Adobe Acrobat Pro DC 工具可以搜索 pdf 内容,用的 微博 Vposy 大神出的 Adobe 全家桶
    em70
        23
    em70  
       83 天前
    chatPDF
    mmdsun
        24
    mmdsun  
       83 天前
    抱歉没看 B/S 架构,建议用 Apache Solr 。PDF\word 各种格式都能搜索,类似 ES ,带 UI

    Apache Solr:
    https://solr.apache.org/features.html
    f1ynnv2
        25
    f1ynnv2  
    OP
       83 天前
    @kukat 试用了一下,这个确实很好用,基本满足我列的要求。非常感谢
    不过默认自带的 ocr 不支持中文,用 Docker 的话得自己重新写个 Dockerfile
    dier
        26
    dier  
       83 天前 via iPhone
    听说最近出了一个 chatPDF
    enrolls
        27
    enrolls  
       83 天前 via iPhone
    这个整合一下应用,应该很快就能有雏形啊
    kukat
        28
    kukat  
       82 天前
    @f1ynnv2 不用啊,可以调整 OCR 的语言选项。https://docs.paperless-ngx.com/configuration/#ocr

    用官方提供的安装脚本就行,不过语言项有点 bug ,一会下划线一会横线…… 记得改一下 docker-compose.env
    PAPERLESS_OCR_LANGUAGE=eng+chi_sim
    PAPERLESS_OCR_LANGUAGES=eng chi-sim
    f1ynnv2
        29
    f1ynnv2  
    OP
       82 天前
    @kukat 我启动 docker 时提示没安装 chi 的 ocr ,只好自己又装了一下重新做了个镜像
    f1ynnv2
        30
    f1ynnv2  
    OP
       82 天前
    @kukat 请问一下,docker 镜像里,我已经通过 apt install tesseract-ocr-chi-sim 了,但是启动的时候仍然提示

    2023-03-15 16:36:16 Reading package lists...
    2023-03-15 16:36:16 Package tesseract-ocr-eng already installed!
    2023-03-15 16:36:17 Package tesseract-ocr-chi_sim not found! :(

    不过奇怪的是确实已经可以 OCR 扫描到文字了。
    关于   ·   帮助文档   ·   博客   ·   nftychat   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2501 人在线   最高记录 5634   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 00:19 · PVG 08:19 · LAX 17:19 · JFK 20:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.