有没有利用开源组件建立一个 Web 端的本地搜索引擎?

2022-11-07 03:46:40 +08:00
 Champa9ne

有没有可能在内网服务器利用开源工具建一个类似百度的搜索引擎?能够搜索一下文档,网页之类的?

原始的数据大概有保存在本地服务器的 Markdown 文件、通过 Save Page WE 等插件从浏览器上保存的 html 网页文件、通过 css 采集插件采集下的 css 数据、其他格式如 txt 、doc 等可以以纯本本形式或通过其他方法能够读取到信息的(如有意义的中文、英文、代码段等)其他文本格式文件。

因为只要可堪一用的状态就可以了,用的人也不多,不用考虑啥高并发高负载之类的情况,这样的服务搭起来各位有啥好思路。

数据采集的部分我打算用 smb 等方法直接把服务器路径挂载到数据采集的各个终端,采集后通过 smb 同步到服务器,再由全文搜索引擎服务提供搜索服务就可以了。所以我觉得难点可能在这个全文搜索的服务上。

目前想到的最简便的思路就是加了中文分词器插件的 solr ,直接 docker 起一下服务,在官方的 demo 上运行就可以了。不过我没具体了解过 solr 具体是怎么个工作流程,是不是要像 ELK 那样要对输入的原始数据( md 、html 、txt 、doc 、py 、c 等)文件进行自己做一个清洗的规则,导入成符合 solr 服务要求的数据结构。还是说直接就可以对文件形式的文本进行全文搜索。

我知道 Windows 平台有些软件,比如 Archivarius 3000 这种也可以在一定程度上实现这样的功能,但因为有多端使用的需求还是想做在 Web 端上。其实就是一个团队知识库的形式吧。

各位老哥有无啥好思路 =w=

2876 次点击
所在节点    程序员
26 条回复
Champa9ne
2022-11-07 17:57:37 +08:00
@hamsterbase 要用在内网,不开源不太行,后期要稍微改一点也动不了。

@edw1n Everything 好像是能搜索文件名吧,还能对全文内容搜索吗,我晚上试试。

@microxiaoxiao 对的,只是要自己开发轮子感觉有点耗时耗力,实在没办法也不是不行。
cnit
2022-11-07 18:24:09 +08:00
anytext ,windwos 下的 不开源,有个功能就是 web 文件内容搜索,我之前跟你也有一样的想法
cnit
2022-11-07 18:26:45 +08:00
Champa9ne
2022-11-07 22:06:35 +08:00
@cnit QUQ 这个 nb ,除了不开源外都十分完美,真 开箱即用。先用这个顶上了。感谢老哥。
supersu
2022-11-07 22:20:14 +08:00
我用 singlefile 自动保存到 Google drive, gd 自带 advance search
stillywud
337 天前
@cnit 这个真的好用

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/893177

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX