elasticsearch 搜索求助

2019-02-17 03:49:12 +08:00
 wico97

最近做一个小说站,准备用 ES 当数据库。一个小说有上百个章节。目前获取单个章节内容的策略是先把小说获取到,然后取特定章节的内容。考虑到一个小说的内存占用有点大,有没有更好点的搜索方式。或者小说章节的存储方式。

谢谢

3549 次点击
所在节点    Elasticsearch
9 条回复
ericgui
2019-02-17 03:51:47 +08:00
先用 mysql 吧
wico97
2019-02-17 03:58:25 +08:00
@ericgui 暂时不想用 mysql。因为网站跟另一个网站放在一块,都用了 ES 做数据库。ES 对大数据搜索比较好
ericgui
2019-02-17 04:19:17 +08:00
@wico97 假如你网站有那么大流量的话
Wisho
2019-02-17 04:32:27 +08:00
一部小说存一个 index,一章存成一个 document,document 的 mapping 里搞个字段存纯文本的章节内容,然后设好分词
theks
2019-02-17 11:32:45 +08:00
感觉没有必要。小说站主要是靠百度之类外部搜索引擎来搜索内容顺便引流吧,所以做好外部搜索引擎的收录就行了,它会给你的被收录的章节内容建全文索引。而站内的搜索往往是用小说名、作者名、主角名字等关键字做精确匹配,关系型数据库完全适用。
另外 sqlserver、mysql 等关系型数据库也可以建全文索引,用关键字作模糊搜索也是可以的,虽然不推荐这么做。
es 是基于 lucene 的,本质上做的是文档之间的相似度匹配,就是说会把用户输入的内容也当作一篇文档,也会对它分词,而用户只输入一个关键词是其中的一种最简单的情况。设想一下场景,我完全不记得小说名、作者、主角名,只记得关键情节“攻打明教光明顶”,那我第一反应是去百度,而不是在你小说站内搜索,因为小说站收录的小说是有限的,可能没有我要找的小说,除非是热门小说,而热门小说又不记得名字、作者的概率就很低了。
再说用 es 做数据库倒是可以,不过不太合适,它在关联、统计查询这些方面挺弱的,还是用传统关系型数据库存数据,es 只做搜索比较好。顺便说一下 es 挺吃服务器内存的。
lqw3030
2019-02-17 12:17:13 +08:00
你用多大机子跑,我试过 2g 机子 docker run 镜像跑不起来,后来改用 solr,跑三四个月状态良好
wico97
2019-02-18 01:43:44 +08:00
@lqw3030 16G 内存。
lqw3030
2019-02-18 08:17:06 +08:00
@wico97 舒服
qionnian
2019-09-06 13:49:27 +08:00
@theks 请教一下,小说是存 MongoDB 好还是 mysql 好

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/535745

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX