求本地大量 PDF 文档管理工具推荐?

2024-08-23 13:19:03 +08:00
 kingdom8
我在 NAS 上放了很多计算机类的文档( PDF 居多),早期使用 Endnote 管理过,但是远程同步是个问题,后来换成 wps 会员存日常使用频率最多的。但我还有大量的专业类 PDF 存在 NAS ,也一直没有整理,希望有同样遭遇的大佬们给出出主意,需求:
1. 能否整理大批量文档
2. 针对非图的文档可以直接全局索引(这是我为啥还没弃用 wps 的原因)
3. 方便导出(万一以后弃坑也方便转移)
4. 如果能添加或者编辑元数据,类似 endnote 那样更好
5. 方便导入(总共 70GB+)
6. 能够分类,方便查找,不单 pdf ,可能也会存在 epub 之类的电子书
3228 次点击
所在节点    程序员
22 条回复
pxiphx891
2024-08-23 14:37:56 +08:00
其实我也一直想这个事,我的 nas 上也有大量电子书。我尝试过百度的 ocr ,非常准。我想,如果用 ocr 一页一页把我 nas 上的电子书都整理成文本,再接入大模型,用来问答或分类,感觉都不错,就像在 iPhone 上搜索日落,能够搜到你拍的一些照片一样,你问大模型一个问题,他能从 nas 中找到几个和你问题相关的电子书的段落
longredzzz
2024-08-23 14:53:03 +08:00
zotero + webdav
ClearMoki
2024-08-23 15:00:57 +08:00
如果需要笔记可以看看 zotero
functionABC
2024-08-23 16:05:17 +08:00
zotero
sumu
2024-08-23 16:14:19 +08:00
以前我也是各种折腾,现在做统一传到微信读书中了(一百多本),然后开个会员,有正版的优先用正版,还没有正版的才用下载的版本。
自带讲扫描版转电子版、听书、ai 问书都很好用
regent
2024-08-23 16:15:09 +08:00
有能跑在 docker 上的 calibre web ,楼主可以试试看
iambic
2024-08-23 16:16:45 +08:00
我用的是 talebook ( https://github.com/talebook/talebook ),感觉还不错
iambic
2024-08-23 16:17:14 +08:00
电子书 talebook ,文献类 zotero
since2021
2024-08-23 16:25:54 +08:00
zotero + webdav
ploud.fr 有 1T 的免费 webdav 空间,国内可以访问~
itisqiang
2024-08-23 19:06:51 +08:00
刚想推荐 Zotero ,但是一看 70 个 G 的 PDF ,这可以问问爱思唯尔或者 Wiley ~
Apol1oBelvedere
2024-08-23 21:48:34 +08:00
@iambic #8 都试过,体验如下:
1 、talebook:非常耗费资源,优化不好,对扫描类 PDF 支持不好。
2 、zotero:全量数据同步,几十 GB 内容体验也不好。

希望有一种服务器端做所有数据索引管理,客户端全量搜索,按需下载数据的是最好的。
Charlot98
2024-08-24 07:24:00 +08:00
google 的 paperpile ,可以免费试用 1 个月,可以多标签管理,做笔记,多设备实时同步。
缺点是,单个文件较大,不好同步
kingdom8
2024-08-24 10:07:42 +08:00
@Apol1oBelvedere 是的,上一次从 endnote 转出来,就是进的 zetero ,但是大文件 webdav 同步确实麻烦,所以 zetero 也弃坑了,目前常用的还是 wps 云存储,一口气开了五年
kingdom8
2024-08-24 10:08:34 +08:00
@longredzzz zotero 也用过,大量的同步也是个麻烦事
kingdom8
2024-08-24 10:13:36 +08:00
@Apol1oBelvedere 是的,甚至像 @pxiphx891 这样有 AI 付费的我也可以接受
fuis
2024-08-24 14:17:01 +08:00
zotero + webdav
invzhi
2024-08-25 19:38:18 +08:00
Devonthink + WebDAV
zealinux
2024-08-25 22:09:59 +08:00
DEVONThink 就是为这些需求而生,但是要你电脑换成 MacOS
dode
2024-08-26 09:34:19 +08:00
可以开发一个简单的 Web 系统,把 pdf 逐页转为 txt 文本,导入数据库,做一个全文索引搜索功能,结果,链接跳转到指定 pdf 下载&预览
kingdom8
360 天前
@zealinux 感谢,这个我去研究一下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1067223

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX