大型 Trie 树数据库的尝试，期望在 RAG 系统中发挥作用

搜索了天工 AI, perplexity, GPT4, 全世界尚无一个独立的商业 Trie 树数据库产品。

http://xt.tanglib.com/ 是一个 Trie 树数据库，上线半年，还是很稳定的。

大型 Trie 树数据库是有难度的（ xt.tanglib.com 的文本数据接近 1T ，单机应该算大型了），否则早就诞生了。

Trie 树数据库相对于 ElasticSearch 倒排索引数据库有一些独特优势，例如速度更快，可以支持插入删除。

最近流行 RAG 系统，特发帖在 v2ex, 期待愿意用 Trie 树数据库的项目来谈合作。

欢迎大家体验这个 Trie 树数据库。

bigtang

2024-03-19 16:46:52 +08:00

@shyrock 你说的是 TF-IDF 还有 pagerank 这些？ tanglib 目前只做了半个解决方案，ai 与 tanglib 之间可进行多次交互，发现关键词量太大继续限定，而百度以及原来的搜索必须一次给出结果，其实这些方法都很大概率不可靠，很多时候明明知道有百度就是找不到，这种时候不少吧？

iosyyy

2024-03-19 17:30:53 +08:00

@bigtang #21 百度多少数据你这才多少数据百度乃个肯定要按中文做分页你这个有百度 1/1000 的数据就爆了好吧

bigtang

2024-03-19 18:13:15 +08:00

@iosyyy 你说的爆了是怎么爆？是查询时间爆了？我只有 1 台服务器阿，百度有 10 万台。。。
欢迎质疑

caixiangyu17

2024-03-20 06:47:34 +08:00

其实好不好用，拿数据说话就好了。来相同的大数据，做一个压力测试瞧瞧，数据直接放上来，地下就不是质疑的声音，而是膜拜大佬了。现在每个性能完不完爆都是嘴说的，有什么意义了？

victorc

2024-03-20 19:08:08 +08:00

空间浪费太严重了，我 10 多年前做搜索输入框 suggestion 的时候，最开始用 trie ，非常消耗空间，后面改成常规倒排索引实现（有序数组+二分法查找），速度/空间都满足

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1024910

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.