关于PHP搜索引擎和中文分词的解决方案的咨询

2013-09-22 01:00:04 +08:00
 F0ur
需要选择一个搜索引擎+中文分词的方案
查了一些资料,目前有3个方案
1.coreseek
基于sphinx+LibMMSeg
我唯一担心的是因为coreseek长期不更新,最新版用的还是sphinx 2.0.2 dev,会不会有什么问题

2.sphinx for chinese
基于sphinx+xdict
一样长期不更新,最新版用的sphinx 2.1.0 dev, 社区中关于分词系统也指出了一些不足

3.xunsearch
基于xapian+scws
更新稳定,但是无从下手,指南写的还是有些问题,当然,我还没去重点研究

因为我对这方面知识了解的不多,只能根据需求找到这3个解决方案,也无法着重做个对比或者选择
所以请懂行的大大们指点一下我,或者有更好的选择方案
先感谢下所有回复的诸位了
6646 次点击
所在节点    PHP
9 条回复
liuxurong
2013-09-22 01:32:18 +08:00
用 v2ex 方案就可以了
ted05
2013-09-22 06:42:44 +08:00
信息检索这个挺难的,最近在学用java是怎么实现的。。。
angelface
2013-09-22 06:48:58 +08:00
还是看你的需求,如果你只是做个站内搜索,google就挺好,如果你要对搜索结果进行控制,那就上面的三种随便选一个,然后深入研究
f489753
2013-09-22 08:09:10 +08:00
目前在用sphinx,不过感觉xunsearch有前途。
当然也可以搞java方案嘛,lucene、slor之类也可以接上。
felix021
2013-09-22 09:49:59 +08:00
小站的话xunsearch就很够用了,文档写得很全啊,有啥问题?

不过xunsearch的速度是硬伤,太慢了,千万级的数据量可能hold不住的感觉。
F0ur
2013-09-22 10:41:36 +08:00
@liuxurong v2ex方案是什么
@angelface google搜索还是不能满足需求,可能带有facet功能
@f489753 lucene、slor的话也可以考虑~我再去研究研究
@felix021 我也是觉得小站xunsearch够了,但是是商业站后期数据量肯定会上去的,所以想找个完全的解决方案
hfcorriez
2013-09-22 10:47:53 +08:00
可以试试ElasticSearch
Yuansir
2013-09-22 13:02:45 +08:00
xunsearch 和 sphinx+coreseek 都用过,推荐xunsearch吧,文档齐全,性能不错,功能也强大,坑比较少,比较容易配置和使用
flyingxu
2014-09-10 09:56:38 +08:00
@felix021 速度有多伤?能实现类似stackoverflow提问题时及时搜索类似问题吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/83210

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX