全文检索

2021-11-12 17:02:41 +08:00
 lufyluo

需求: 上传文件( PDF 、WORD 、TXT ),支持关键字检索,可以搜索文本内容。

大家有没有好的方案实现、或者当前开源的比较好的方案。

现在我想的是识别文本内容,再结合 ES 。还有其它方案吗?

1412 次点击
所在节点    程序员
10 条回复
saulshao
2021-11-12 17:05:07 +08:00
基本就是你说的了,别的也比较费劲。
czfy
2021-11-12 17:15:01 +08:00
要搜索文本基本就是 ES 了
word 和 txt 还好
PDF OCR 可能还要费点心思,效果不一定好
encro
2021-11-12 19:31:09 +08:00
1 ,word ,ppt 转 pdf ;(wps ,aliyun 服务等等都可以,不转直接读 word 文本也可以)
2 ,用 pdfbox 抽取 pdf 文本,然后放到 es 里面;

不用图像识别,性能太低了。
可以付费咨询我,哈哈,根据你熟悉的语言定制方案。
codingBug
2021-11-13 00:23:23 +08:00
很多文档网站用的 algolia
xuexiaoaoooo
2021-11-13 09:40:31 +08:00
Ingest Attachment Processor Plugin
lufyluo
2021-11-25 11:31:15 +08:00
@saulshao
@czfy
@encro

哈哈,感谢,有更好的方案,我也跟你们讨论下
lufyluo
2021-11-25 11:31:42 +08:00
@codingBug 哦,可以,我先去瞅瞅,感谢
lufyluo
2021-11-25 11:32:03 +08:00
@xuexiaoaoooo 感谢,我去研究下
sbilly
2022-07-06 14:29:12 +08:00
@lufyluo 你找到好用的了吗?
lufyluo
2022-08-05 14:58:28 +08:00
@sbilly 还没,有成果了我再圈你

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/815003

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX