V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ericgui
V2EX  ›  程序员

全文搜索(full text search)有什么好一点的低成本解决方案?

  •  
  •   ericgui · 64 天前 · 5975 次点击
    这是一个创建于 64 天前的主题,其中的信息可能已经有所发展或是发生改变。

    elastic search ,自己搭建太麻烦了,买服务太贵

    实在不行只能买服务了,我可没那功夫搭建

    但太贵了

    彦祖们能否有什么推荐么

    数据量很小,目前只有 15K 条数据,即便将来增长,也不会超过 1M

    62 条回复    2023-01-11 20:10:17 +08:00
    Chad0000
        2
    Chad0000  
       64 天前 via iPhone
    我之前也是买官方服务但比较贵,后来我 docker 自建( k3s 托管),挺稳定的,还便宜。

    我数据不多,主要是用来搜索电商产品。
    ericgui
        3
    ericgui  
    OP
       64 天前
    @Chad0000 诶,有道理哦
    likunyan
        4
    likunyan  
       64 天前
    algolica 免费的够吗
    ericgui
        5
    ericgui  
    OP
       64 天前
    @rushssss 谢谢,sonic 这个看着很不错
    leavic
        6
    leavic  
       64 天前
    leavic
        7
    leavic  
       64 天前
    搞错了,我还以为你要的是桌面搜索。。
    ericgui
        8
    ericgui  
    OP
       64 天前
    @likunyan 不够,恰好很尴尬,我这边有不到 2 万条数据,algolica 免费的只能 1 万,但 algolica 确实比 elastic search 便宜多了
    kran
        9
    kran  
       64 天前 via Android
    这么小的数据量,应该不需要这些服务。自己在内存里建索引就好吧
    ericgui
        10
    ericgui  
    OP
       64 天前 via Android
    @kran 能否给个关键词?我搜搜怎么做
    demoshengxw
        11
    demoshengxw  
       64 天前 via iPhone   ❤️ 1
    es 用 docker 很快就能部署上啊,全文搜索 es 还是好用
    optional
        12
    optional  
       64 天前 via iPhone
    pg
    kran
        13
    kran  
       64 天前 via Android
    @ericgui 自然语言处理,关键词提取,反向索引。
    如果用轻量级服务,可以看看 arangodb ,支持全文检索,并且可排序
    pengtdyd
        14
    pengtdyd  
       64 天前
    直接用 mysql 不行吗,我感觉优化优化也将就用。
    dcoder
        15
    dcoder  
       64 天前
    @ericgui
    维护 ES 就是麻烦, 用 docker/k8s 的话...得用 stateful container 来存 ES 的数据...??

    你不关心多机 scale 问题的话, 可以先试试单机 PostgreSQL, 它也有 full text search
    reeco
        16
    reeco  
       64 天前 via iPhone
    pg 是你最好的选择
    DTCPSS
        17
    DTCPSS  
       64 天前
    Postgresql
    kidlj
        19
    kidlj  
       64 天前
    Postgresql
    dzdh
        21
    dzdh  
       64 天前
    强烈安利:

    - PostgreSQL 自带,勉强够用

    - 想要类似 ES 的,轻量的,支持 avg/cnt/sum/group 等,中文友好,支持海量数据(<1e 内),不是一股脑全塞到内存的。请移步 https://zincsearch.com/

    - 少量数据(十几百十来万不差钱的) https://www.algolia.com/
    sdshiyan2005
        22
    sdshiyan2005  
       64 天前
    sqlite 的 fts5?
    czjxy881
        23
    czjxy881  
       64 天前
    https://nasuyun.com/ 有 6g 免费空间的 Serverless es
    cweijan
        24
    cweijan  
       64 天前
    es 有哪里麻烦的, 你别搞集群, 直接单机起一个就行
    garfeildma
        25
    garfeildma  
       64 天前
    Postgre, MySql, Sqlite 都支持 full text search ,如果已经用了这些数据库直接用应该够了
    aru
        26
    aru  
       64 天前
    ES 直接用 docker 整一个单实例就行了,很简单
    Iamsonny
        27
    Iamsonny  
       64 天前
    elastic 不是 click 就可以运行的么~~~
    dusu
        28
    dusu  
       64 天前 via iPhone
    楼主的需求下 manticoresearch 吊打一切
    sunnysab
        29
    sunnysab  
       64 天前   ❤️ 1
    pg 的中文全文检索资料有点老、少,按理说是够用的。之前折腾过一段时间,按照步骤一步步来,但是自定义分词始终无法生效,就弃坑了……

    sonic 和 meilisearch 都是 rust 写的工具,前者只提供一个 index 服务。感觉他们不错。
    同蹲一个解决方案。
    beneo
        30
    beneo  
       64 天前 via iPad
    有无 go 语言解决方案,带支持中文分词 go 语言解决方案
    liaohongxing
        31
    liaohongxing  
       64 天前
    go 的用 zinc , rust 用 meilisearch (官方支持中文,用的 jieba 分词) , java 的 es

    es 效果好 , 但是 CPU/内存占用大,4G 左右吧 。轻量的可以用 meilisearch , 毕竟官宣支持中文。
    roundgis
        32
    roundgis  
       64 天前 via Android
    https://mongoing.com/archives/81357

    我之前也用了類似的方法
    hackpro
        33
    hackpro  
       64 天前 via iPhone
    Devonthink
    em70
        34
    em70  
       64 天前
    用 mongodb 储存, 给要搜索的字段创建 TEXT 索引, 支持 TB 级数据量,有大内存就行,其他什么都不用做,全文搜索速度很快,不需要排序的搜索场景都可以满足
    lxwlxc
        35
    lxwlxc  
       64 天前
    这么小的量,直接用 Lucene ,都不需要部署服务。ES 也是基于他的
    eudore
        36
    eudore  
       64 天前
    postgress mysql 自带的倒排,或者用开源简化版的全文检索引擎。
    herozzm
        37
    herozzm  
       64 天前
    docker 部署就算是集群,也是几条命令就全部搞定了
    coymail
        38
    coymail  
       64 天前
    直接 Lucene 一把梭
    dayeye2006199
        39
    dayeye2006199  
       64 天前
    数据库自己带的全文搜索
    shelken
        40
    shelken  
       64 天前 via iPhone
    shelken
        41
    shelken  
       64 天前 via iPhone
    <a href="https://smms.day/image/6vDEFjVZ9tQcMri" target="_blank"><img src="https://s2.loli.net/2022/12/04/6vDEFjVZ9tQcMri.jpg" alt="IMG_0072.jpeg"></a>
    shelken
        42
    shelken  
       64 天前 via iPhone
    haonie
        43
    haonie  
       64 天前
    windows 本地搜索呢?有推荐的开源项目吗? win 自带搜索不好用,listary 、everything 又不能搜索内容,其他的搜索软件也太臃肿,都没有比得上苹果的。
    yazinnnn
        44
    yazinnnn  
       63 天前
    自建 es 麻烦在哪里....数据量不大直接跑容器里吧
    ksc010
        45
    ksc010  
       63 天前
    ES 用 docker 很容易 一个 docker-composer 配置文件就可以搭建一个集群
    Jiajin
        46
    Jiajin  
       63 天前
    es 搭建快的很
    documentzhangx66
        47
    documentzhangx66  
       63 天前
    全文索引的原理,导致其质量与速度,本质就是拼成本,这玩意哪有什么低成本。

    你要想低成本,要么速度极慢,要么只做热词。

    只做热词会导致非热词信息搜不到,比如某些电商平台,搜历史订单,明明有这个关键词,但就是搜不出来,这就是这个原因。
    timnottom
        48
    timnottom  
       63 天前
    我收藏了好几个,分享给你:

    - elasticsearch
    - zinc
    - meilisearch
    - typesense
    - sonic


    这些大多基于 go, rust 等新兴语言,特别是基于 go 的,占用资源肯定少一些。

    不过,要我说,好用的肯定是 es
    tairan2006
        49
    tairan2006  
       63 天前
    es 单点搭建简单的很,不知道楼主在说啥
    WingPig99
        50
    WingPig99  
       63 天前
    推荐 es
    wangfenjin
        51
    wangfenjin  
       63 天前
    如果是单机的话,可以用 sqlite3+fts5, 然后我写的这个中文插件 https://github.com/wangfenjin/simple
    makdon
        52
    makdon  
       63 天前
    如果数据量较小,用的是 Go 的话,可以试试这个
    我们这边业务也是 1w 条左右数据,服务启动的时候就读 DB 然后用这个库做内存索引
    不过实践发现可能花点钱买个公有云的 elastic search 的会省心很多
    https://github.com/blevesearch/bleve
    URgoy
        53
    URgoy  
       63 天前 via iPhone
    Aloento
        54
    Aloento  
       63 天前
    对于全文搜索,您可以考虑使用 Apache Solr 或 Apache Lucene 。它们都是开源的全文搜索工具,而且比较容易使用。它们都提供了许多强大的功能,包括分词、拼写纠错和结果排序,可以帮助您快速、高效地进行全文搜索。

    此外,如果您的数据量很小,您可以考虑使用 SQLite 数据库。SQLite 是一种轻量级的关系数据库,它可以运行在各种平台上,包括桌面和移动设备。它非常容易上手,而且可以满足您的数据量要求,即使将来数据量增长到 1M 。

    总而言之,对于您的需求,Apache Solr 或 Apache Lucene 和 SQLite 数据库都是不错的选择。它们都是开源的,易于使用,并且提供了许多强大的功能,可以帮助您进行全文搜索。此外,它们都是低成本的解决方案,可以满足您的需求。
    CX
        55
    CX  
       63 天前
    sphinx ?不吃配置,只是搭建维护比较麻烦
    magnetar
        56
    magnetar  
       63 天前
    说下我用过的吧,
    sphinx 优点:配置简单,索引快(但是分词太细 2 千万需要 7 分钟左右),最多占用 1g 内存,php 、python 对接方便,缺点:增量更新麻烦,搜索后返回 id 需要走一遍数据库查询,
    typesense:我索引到 1 千万的时候崩了,问题应该是内存不够,
    zinc 优点:配置简单,不怎么占用内存,语言对接方便,支持大部分 es 的语法,缺点:需要固态硬盘,不知道是不是我配置的问题,占用磁盘空间超级大(有相关配置但是设置了不生效)。
    meilisearch:看了文档直接放弃,没有尝试。
    sonic:跟 sphinx 差不多,没有尝试
    elasticsearch:现在在用的,缺点就是吃内存(也还好,数据没上亿单机还是没什么压力),配置繁琐。
    其实很简单的问题,搜索要想玩的花就上 es ,何况你说后面数据量要上 M ,大数据就直接无脑 es 了啊,
    jinsongzhao
        57
    jinsongzhao  
       63 天前
    看来开始遍地开花时期了。数据库自带的; Lucene 的 java 系列; go ; rust; C++应该也有(比如 AnyTxt )。不知道哪家方案接近技术完善了,如果没有出现完善的(多语种支持),那还是最低成本数据库自带的跑跑看了
    brader
        58
    brader  
       63 天前
    最低成本的应该还是直接用现有的 mysql 的 full text 索引,我的项目中也在大量使用,这个东西简单使用完全没问题的,你可以先尝试,而且它的尝试成本低到几乎没有。
    010203kk
        59
    010203kk  
       61 天前
    ReSearch--考据级搜索引擎微服务系统
    https://github.com/liaoran123/research
    javafans
        60
    javafans  
       50 天前
    nasuyun.com 不香吗
    ENNRIaaa
        61
    ENNRIaaa  
       47 天前
    Meilisearch ,使用 Rust 开发的搜索引擎,并且对中文搜索很友好,不需要额外的配置,可以参考下。
    mejee
        62
    mejee  
       25 天前
    同求。主要还是小公司的场景下,用啥服务都束手束脚的,要么没钱,要么没经历维护(毕竟多维护一个服务,还要保证稳定性),准备实在不行就基于现有的存储自己写一个简单的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   实用小工具   ·   4968 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 45ms · UTC 09:13 · PVG 17:13 · LAX 01:13 · JFK 04:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.