请教个检索系统技术问题

160 天前
 findlisa
现在要做个检索系统,数据大概 500w ,数据源来源于外部,第一次全量解析 xml 文件,后续每天拿到增量数据包增量更新,检索要求可以根据相似度匹配(可调节相似度)
目前调研
1.大文件文件解析可以用事件方式 如 stax ,防止一次加载到内存
2.相似度查询目前了解可以用 es 或者数据库 fulltext ,但是考虑到查询性能倾向 es
3.数据解析的话解析时候写到数据库,同时同步到 es ,只同步查询字段,然后检索先在 es 查到主键再去数据库根据主键查询

问问各位大佬技术选择和方案有没有什么问题,或者数据存储、查询有没有别的方式,谢过各位🧐,这也是小弟第一次负责做一个从 0 到 1 的系统,有点怕做不好呢
658 次点击
所在节点    程序员
1 条回复
findlisa
159 天前
没人吗🤣

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1000127

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX