请教做一个定向的搜索引擎都有什么开源的框架可以使用呢?

2022-01-03 21:28:11 +08:00
 sjmcefc2

想做一个定向的搜索引擎,针对某一些网站发布的信息,这样有开源的吗?

1329 次点击
所在节点    程序员
6 条回复
sjmcefc2
2022-01-03 22:36:46 +08:00
或者能够搜索 pdf 文件内的内容的有吗
2i2Re2PLMaDnghL
2022-01-03 23:34:08 +08:00
要搜索 pdf 文件有 docfetcher
定向搜索引擎也就是搜索引擎,爬完了丢 ES 罢(
hs0000t
2022-01-04 00:38:22 +08:00
太模糊了,建议具体说说使用场景,人数,频率等
czfy
2022-01-04 09:46:47 +08:00
定向,无非就两种方式
1. 爬虫+ES ,上面有人提到了,不过有风险
2. RSS ,找个地方存
sjmcefc2
2022-01-05 07:48:02 +08:00
使用人数:5 人以内;
频率:每天
场景:搜索固定几个网站的内容。能有个集中的入口

比如,能够把一个关键词就覆盖几个网站;百度是有搜索功能,不过搜出来的大部分不是想要的东西
wingor2015
2022-01-06 17:57:04 +08:00
用 pdfminer 提取过 PDF ,但是效果有些好有些差,pdf 是不能保障文件里的内容都能被正确提起出来的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/825958

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX