10T+pdf 需要做一套内容检索系统,我想这么做***

2023-04-11 00:35:44 +08:00
 Rodin
有 10T+ pdf 做一套内容检索系统,以后会继续新增 pdf
1.通过关键字可以快速检索 pdf 文件内容
2.可通过账号密码登录,并上传 pdf 和检索
3.在保证上边情况下,相对低的成本。
目前想到是:
pdf 解析到 es + Elasticsearch 集群 + web 进行开发(可是 es 的集群有点小贵)
求大佬们指点下。
2774 次点击
所在节点    程序员
13 条回复
pluvet
2023-04-11 00:54:17 +08:00
10T 资源求分享(狗头
Sisyphe42
2023-04-11 03:30:50 +08:00
别心疼钱,从头到尾全放 aws
Weixiao0725
2023-04-11 03:42:42 +08:00
现在做基于关键字检索的系统已经没有吸引力了,都开始搞语音检索了。可以把 pdf 内的内容做成 embedding 存到向量数据库,然后基于向量相似性做检索。
ufo5260987423
2023-04-11 08:24:09 +08:00
10T 资源求分享
optional
2023-04-11 08:37:25 +08:00
简单的倒排索引可以直接用 pg
Akkuman
2023-04-11 09:07:10 +08:00
10t 全是文字版的 pdf 或 epub 等格式?大部分应该是扫描版吧,文字全提出来我觉得可能也没多少
billzhuang
2023-04-11 09:49:58 +08:00
litengyu86
2023-04-11 09:53:15 +08:00
pdf 内容是文本还是图片啊? 如果是图片就不好检索吧。
shadoworld
2023-04-11 10:37:06 +08:00
楼主做好后开源吧
ggvm
2023-04-11 11:39:44 +08:00
使用 es 来做肯定比较方便。 这个没有太大的难度了。

但从成本角度,建议你不要上云,可以考虑自己买 洋垃圾组建本地的集群。

把搜索的前端逻辑放在公有云,实际的数据存储和查询引擎放在 本地集群。 本地集群通过内网穿透的方式对外提供服务。
flyingfz
2023-04-11 14:39:33 +08:00
推荐一个 es 的替代品,MeiliSearch , 一个 Rust 写的搜索引擎。
大概测试了下,效果还是挺不错的。

尝试把 hellogithub.com 的 1-85 期周刊的所有 project 导入到里面,占用存储 82M 。 供参考。
runningman
2023-04-11 15:25:56 +08:00
@flyingfz 多谢,我去试试这个,之前用了 golang 的 zinc
dayudayupao
2023-04-11 15:37:00 +08:00
为何不试试 chatpdf ?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/931392

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX