求推荐一个能检索内容的 pdf 文件管理软件

2023-03-14 09:23:12 +08:00
 f1ynnv2

因为平时会把一些论文、文章转成 pdf 保存,时间久了 pdf 文件非常多,所以想找个 pdf 管理软件,想要的特性如下:

  1. 能检索 pdf 标题和内容
  2. 最好能给 pdf 文件打标签
  3. B/S 架构,这样可以部署到一台服务器上,多端访问

谢谢。

2549 次点击
所在节点    问与答
30 条回复
hicdn
2023-03-14 22:07:52 +08:00
继续安利 recoll ,https://www.lesbonscomptes.com/recoll/pages/index-recoll.html 支持全平台,功能十分强大,压缩包里的文件内容都可以索引,还能自己扩展可索引的文件后缀名,比如 xmind 的思维导图。
mmdsun
2023-03-14 22:11:10 +08:00
我用的 Adobe Acrobat Pro DC 工具可以搜索 pdf 内容,用的 微博 Vposy 大神出的 Adobe 全家桶
em70
2023-03-14 22:13:10 +08:00
chatPDF
mmdsun
2023-03-14 22:14:47 +08:00
抱歉没看 B/S 架构,建议用 Apache Solr 。PDF\word 各种格式都能搜索,类似 ES ,带 UI

Apache Solr:
https://solr.apache.org/features.html
f1ynnv2
2023-03-14 22:48:00 +08:00
@kukat 试用了一下,这个确实很好用,基本满足我列的要求。非常感谢
不过默认自带的 ocr 不支持中文,用 Docker 的话得自己重新写个 Dockerfile
dier
2023-03-14 22:49:33 +08:00
听说最近出了一个 chatPDF
enrolls
2023-03-14 23:07:14 +08:00
这个整合一下应用,应该很快就能有雏形啊
kukat
2023-03-15 10:13:48 +08:00
@f1ynnv2 不用啊,可以调整 OCR 的语言选项。https://docs.paperless-ngx.com/configuration/#ocr

用官方提供的安装脚本就行,不过语言项有点 bug ,一会下划线一会横线…… 记得改一下 docker-compose.env
PAPERLESS_OCR_LANGUAGE=eng+chi_sim
PAPERLESS_OCR_LANGUAGES=eng chi-sim
f1ynnv2
2023-03-15 11:17:14 +08:00
@kukat 我启动 docker 时提示没安装 chi 的 ocr ,只好自己又装了一下重新做了个镜像
f1ynnv2
2023-03-15 16:53:55 +08:00
@kukat 请问一下,docker 镜像里,我已经通过 apt install tesseract-ocr-chi-sim 了,但是启动的时候仍然提示

2023-03-15 16:36:16 Reading package lists...
2023-03-15 16:36:16 Package tesseract-ocr-eng already installed!
2023-03-15 16:36:17 Package tesseract-ocr-chi_sim not found! :(

不过奇怪的是确实已经可以 OCR 扫描到文字了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/923773

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX