V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bigtang
V2EX  ›  互联网

做了一个比百度谷歌更流畅更丝滑的搜索引擎,欢迎大家提建议

  •  
  •   bigtang · 312 天前 · 3214 次点击
    这是一个创建于 312 天前的主题,其中的信息可能已经有所发展或是发生改变。
    大家习惯了百度谷歌的用法,以为已经到了极致,其实还可以更快。
    大家也习惯了使用 ElasticSearch, 无论大中小公司都在使用。

    很难想象一个极度需要性能的业务居然从底层都是基于 java 开发的,大家来对比一下我们基于 c++开发的搜索引擎:
    tanglib.com , 从搜索体验上,是否有一些超出。

    tanglib.com 目前运行在单机上,接近 1T 的文本,从后台看响应基本在几毫秒内,即是做成集群,聚合搜索结果一般也不会超过十毫秒,人类根本感觉不到。

    v2ex 上曾经有几个小搜索引擎,例如 magi.com , 不过看起来最终都没有做起来。

    这项技术如何发展,我没有想好,恳求大家发表建议,集思广益一下,谢谢。
    25 条回复    2023-06-21 00:32:31 +08:00
    shinession
        1
    shinession  
       312 天前
    试了几次, 还不错, 收藏支持一下
    zhangxiuyan
        2
    zhangxiuyan  
       312 天前
    好像崩了
    SkYouth
        3
    SkYouth  
       312 天前
    查询失败,Request failed with status code 502
    bigtang
        4
    bigtang  
    OP
       312 天前
    #2, 确实, 启动要等 5 分钟。。。
    GeekSuPro
        5
    GeekSuPro  
       312 天前
    查询失败,Request failed with status code 502

    可以先保证可用性嘛?
    centralpark
        6
    centralpark  
       312 天前
    代码块至少用个 <pre /> 标签吧
    jasonhui512
        7
    jasonhui512  
       312 天前
    1T 的文本都是 github 的代码?
    bigtang
        8
    bigtang  
    OP
       312 天前
    #7 , 关于 里面有详细介绍
    Martin123123
        9
    Martin123123  
       312 天前
    本质上现有的搜索引擎都不是单纯的搜索引擎,关键的话还是数据源,还包含很多其他的功能,比如说自然语言的处理,不管是百度、Google 、Bing 搜索「笑米手机」实际上搜出来的结果是小米手机,还有基于用户的搜索历史和浏览行为的推荐算法之类的很多功能
    sadfQED2
        10
    sadfQED2  
       312 天前 via Android
    你这是推销业务还是推销技术引擎?业务的话这 ui 交互也太差了吧?推销技术框架的话,也没见技术细节和性能功能对比呀
    MuSeCanYang
        11
    MuSeCanYang  
       312 天前
    502
    stonepy
        12
    stonepy  
       312 天前
    每次输入字符就触发查询,不可能不崩吧,建议先做个防抖和节流
    bigtang
        13
    bigtang  
    OP
       312 天前
    #11 修改了一下,可以了;#10 ,都不完善,拿出来讨论总是可以的吧;#9 ,完整搜索引擎当然是超级复杂,目前是希望大家帮找到亮点和可能性吧,如果都做成功了就不需要讨论了
    bigtang
        14
    bigtang  
    OP
       312 天前
    #12 防抖和节流现在就有,崩是刚才有人在做极限测试,改好了。
    wateryessence
        15
    wateryessence  
       312 天前
    全文搜索就和 es meilisearch algolia 做 benchmark ,标题取得太唬人了
    cherryas
        16
    cherryas  
       312 天前
    亮点速度快
    原理分析:最多也只能返回 30 个结果所以速度快
    bjzhush
        17
    bjzhush  
       312 天前
    优点:非常快,可以说是实时
    缺点:没有太落地的场景,发挥不出什么价值
    hellodigua
        18
    hellodigua  
       312 天前
    流畅丝滑可能是因为内容太少了,搜啥都搜不到……

    等数据量到 PB 级别的时候,再来对比一下速度
    bigtang
        19
    bigtang  
    OP
       312 天前
    #16 ,返回 2000 条还是一样快的,返回 20 万条可能会慢,但谁会需要 20 万条结果呢?
    #18 ,PB 级数据就有集群了,还是一样的快
    olaloong
        20
    olaloong  
       312 天前
    踩一脚 ElasticSearch 大可不必吧,ES 真正强大的不是各种查询语法吗,你这能支持多少呢
    inhzus
        21
    inhzus  
       312 天前
    对比 sphinx, meilisearch, vespa 这些呢... 一对比就来活了
    c2const
        22
    c2const  
       312 天前
    感觉数据量不够,还是习惯谷歌的结果
    shanghai1998
        23
    shanghai1998  
       312 天前
    让我想起来一个笑话:
    请问 168 乘以 861 等于多少?没任何思考 回答 82128

    只保证快,没说答案对
    bigtang
        24
    bigtang  
    OP
       312 天前
    #22 #23 应该是非技术人员,本帖本意是说比较搜索体验,不是代替百度谷歌。
    tanglib.com 只是源代码搜索,只能搜源代码。
    当然如果真有百度谷歌那么多内容,加上 pagerank ,是可以超越百度谷歌的。
    tntin
        25
    tntin  
       311 天前 via Android
    标题党 。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2552 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 15:40 · PVG 23:40 · LAX 08:40 · JFK 11:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.