不支持中文搜索的论坛都是渣渣!

2015-07-07 14:07:10 +08:00
 pein

个人看法,可能有些主观。

简单试用了下几个论坛框架,说一下感受。

Esotalk : http://esotalk.org

很久前用过,当时被中文搜索问题弄得头疼就放弃了。现在去看已经是半死不活状态,继任者Flarum开发中。

Flarumhttp://discuss.flarum.org

基于tag的轻论坛,界面比较美观。帖子可以对应多个tag,tag只能从给定的当中选择不能自行添加,发布文章不用跳页面很方便。不支持中文搜索,文章标题“中文测试”,搜索“中文”和“测试”都没结果,只有输入完整标题才能搜到。

Discoursehttp://www.discourse.org

基于category的轻论坛,界面比较美观。帖子只能对应一个category,category为给定不可自行添加,发布文章不用跳页面很方便。基本不支持中文搜索,文章标题“中文搜索测试”,搜索任何“中文搜”开头的文字均可以搜到,其他情况搜不到,用英文也试了下,貌似是不论中英文都要超过三个字才会执行搜索命令。

Carbon Forum : http://www.94cb.com

好吧,国产。思想跟Flarum差不多,基于tag(话题)的轻论坛,界面还行。tag为自行添加,发布文章要跳页面,支持中英文搜索

下面开喷。

为什么国外论坛框架不支持中文搜索?为什么Carbon Forum就能支持中英文?是不是老外看不起中文?如果我是国外的开发者,肯定也会让框架支持中文搜索的,毕竟中国人多啊用户群摆在那里,不明白,支持中文搜索很难吗?

10762 次点击
所在节点    程序员
68 条回复
kingcos
2015-07-07 15:21:59 +08:00
@adoyle 笑喷…
pein
2015-07-07 15:24:57 +08:00
@Agromania 自然语言分析这个确实,百度搜索XXX怎么样,就会出现XXX好不好,XXX如何之类的结果,这个要求就有点高了。我是在官方的demo上测试的,可能最新的版本已经能支持了吧。
GhostFlying
2015-07-07 15:30:04 +08:00
支持中文太麻烦,所以就无视了。。其实也蛮容易理解的
pein
2015-07-07 15:32:01 +08:00
@Luzifer 我现在是配置PAC ,根据某list来判断,自动切换。
pein
2015-07-07 15:39:46 +08:00
@adoyle
@kingcos
@jnduan
搜了下锟斤拷,结果。。。
大一刚学C语言,第二次上机课,当我发现我照着书抄写的程序在运行之后的黑框里跳出一排烫烫烫烫烫,当时就震惊了。你们能想象一个来自小城,在大学之前没怎么接触过电脑更不懂代码的孩子当时内心的恐惧吗?我真的以为这是电脑过热发出的警告,于是我弯下腰把插头拔了。—— From. chengr28
hahastudio
2015-07-07 15:45:28 +08:00
@pein 并不是,基本上只要是 Unicode,中文搜索只是挫一点,但还是可用的
但是如果你开始并不考虑编码,所有都是 ASCII,为了支持少数的 CJK,就要弄上 Unicode,如果网站字体有风格,是不是还得给中文备一个字体?太麻烦了
你想想,后端的存储、前端的展示、URL 之类的传输数据都需要改,想想就烦死了
再说英语区的人为什么会去考虑 CJK 的想法呢,他们默认大家都说英语,ASCII + emoji 足够了

哦,我又想起了 IBus 那类输入法的问题了

哦,对了,又有多少搜索引擎自带了提取英文单词的 stem 呢?
abv
2015-07-07 15:51:18 +08:00
自己搭一个搜索引擎啊
elyamen
2015-07-07 15:55:21 +08:00
楼主,百度贴吧的干活?
pockry
2015-07-07 16:05:51 +08:00
你自己开发一个支持中文全文搜索的CMS就知道了,有些数据库根本都不支持中文搜索。
b821025551b
2015-07-07 16:11:38 +08:00
嗯,很难。
elyamen
2015-07-07 16:23:06 +08:00
忽然觉得看来看去,DZ最靠谱了,哈哈!
Dz虽然所谓臃肿,但该有的全有啊,而且那么的成熟,像一个虽然生过孩子,但依然风采依然的少妇,你谈了无数场恋爱,失恋过后,终究发现还是少妇最迷人。
blacktulip
2015-07-07 16:26:14 +08:00
科技处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作
jnduan
2015-07-07 16:46:44 +08:00
还别说,当年做分词,楼上的句子是必须要扔进去验证分词准确性的,23333
DreamCMS
2015-07-07 16:50:05 +08:00
@blacktulip 哈哈哈!!
DeutschXP
2015-07-07 16:53:39 +08:00
楼主挺矫情的。要不你弄个不渣渣的出来我们看看?
原因在一开始别人也就告诉你了,我觉得正确的思路应该是接着去深入了解这一块的技术难度和发展,然后再决定应该怎么做,如果你觉得自己有好的思路,那也可以尝试再造一个轮子。别的不说,即便经过这么多年的发展,即便已经有了许多相关的研究和产品,如果你说你今天找到了一个更有效的分词方法,你下半辈子都不用愁了,真的。
从你的描述看你还是写代码的,那咋表现的就像一个其他专业跳过来的PM呢,就是一副:别强调理由,我不听我不听,你说实现 A 有难度,那你实现个 B 给我看看啊,怎么 B 也实现不了,你们这群饭桶! ... 这样的表情。

国外的商业产品,vbulletin也算鼻祖了吧,当年在国内推广,为了中文分词也算是做出了相当的努力,但结果也是不尽人意,虽然当时我们为这么个玩意都花了不少钱,但该放弃还是放弃,基本都转 Discuz 了,基本vbulletin也就放弃中国市场了。

国内的Discuz 之类,这些是能满足你的需求的。国外的,你自己把搜索这一块的代码改写一下也 OK 的,当然,性能什么的就别太计较了。
minongbang
2015-07-07 16:56:06 +08:00
### v2评论支持markdown吗?
babyname
2015-07-07 16:56:44 +08:00
没有人发现这是个广告贴吗
otakustay
2015-07-07 17:27:11 +08:00
依照我的经验,其实普通的Lucene加个盘古分词,花上小一个月对论坛的主流话题和言论倾向做一些定制化,比如加点词到词库里之类的,搜索基本就没问题了

所以中文搜索真不是难事,我这种纯前端都干过,效果还行找了一些朋友试用都说没啥问题

但是后来因为那个系统的维护,我对于在Lucene和ElasticSearch上做性能优化这事充满了恐惧,同时充满恐惧的还有使用mongo……
Ouyangan
2015-07-07 17:32:02 +08:00
@Luzifer 图片好评
@elyamen +1
iyaozhen
2015-07-07 17:44:54 +08:00
有个学长 @huip 做的东西有支持中文搜索: http://guwen.stuzone.com/

当时他说过,基本的思路是发帖时就生成关键词(开源的中文分词库),然后建立倒排索引。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/203939

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX