V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wico97
V2EX  ›  Elasticsearch

elasticsearch 搜索求助

  •  
  •   wico97 · 2019-02-17 03:49:12 +08:00 · 3504 次点击
    这是一个创建于 1867 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近做一个小说站,准备用 ES 当数据库。一个小说有上百个章节。目前获取单个章节内容的策略是先把小说获取到,然后取特定章节的内容。考虑到一个小说的内存占用有点大,有没有更好点的搜索方式。或者小说章节的存储方式。

    谢谢

    9 条回复    2019-09-06 13:49:27 +08:00
    ericgui
        1
    ericgui  
       2019-02-17 03:51:47 +08:00
    先用 mysql 吧
    wico97
        2
    wico97  
    OP
       2019-02-17 03:58:25 +08:00
    @ericgui 暂时不想用 mysql。因为网站跟另一个网站放在一块,都用了 ES 做数据库。ES 对大数据搜索比较好
    ericgui
        3
    ericgui  
       2019-02-17 04:19:17 +08:00
    @wico97 假如你网站有那么大流量的话
    Wisho
        4
    Wisho  
       2019-02-17 04:32:27 +08:00
    一部小说存一个 index,一章存成一个 document,document 的 mapping 里搞个字段存纯文本的章节内容,然后设好分词
    theks
        5
    theks  
       2019-02-17 11:32:45 +08:00 via Android   ❤️ 1
    感觉没有必要。小说站主要是靠百度之类外部搜索引擎来搜索内容顺便引流吧,所以做好外部搜索引擎的收录就行了,它会给你的被收录的章节内容建全文索引。而站内的搜索往往是用小说名、作者名、主角名字等关键字做精确匹配,关系型数据库完全适用。
    另外 sqlserver、mysql 等关系型数据库也可以建全文索引,用关键字作模糊搜索也是可以的,虽然不推荐这么做。
    es 是基于 lucene 的,本质上做的是文档之间的相似度匹配,就是说会把用户输入的内容也当作一篇文档,也会对它分词,而用户只输入一个关键词是其中的一种最简单的情况。设想一下场景,我完全不记得小说名、作者、主角名,只记得关键情节“攻打明教光明顶”,那我第一反应是去百度,而不是在你小说站内搜索,因为小说站收录的小说是有限的,可能没有我要找的小说,除非是热门小说,而热门小说又不记得名字、作者的概率就很低了。
    再说用 es 做数据库倒是可以,不过不太合适,它在关联、统计查询这些方面挺弱的,还是用传统关系型数据库存数据,es 只做搜索比较好。顺便说一下 es 挺吃服务器内存的。
    lqw3030
        6
    lqw3030  
       2019-02-17 12:17:13 +08:00 via iPhone
    你用多大机子跑,我试过 2g 机子 docker run 镜像跑不起来,后来改用 solr,跑三四个月状态良好
    wico97
        7
    wico97  
    OP
       2019-02-18 01:43:44 +08:00
    @lqw3030 16G 内存。
    lqw3030
        8
    lqw3030  
       2019-02-18 08:17:06 +08:00 via iPhone
    @wico97 舒服
    qionnian
        9
    qionnian  
       2019-09-06 13:49:27 +08:00
    @theks 请教一下,小说是存 MongoDB 好还是 mysql 好
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   963 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 69ms · UTC 21:15 · PVG 05:15 · LAX 14:15 · JFK 17:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.