Teahour #63: 与微搜索丁彦聊搜索引擎技术

2014-10-20 12:23:00 +08:00
 yedingding
本期由玎玎主持,邀请到了微搜索的创始人丁彦来 Teahour 做客,聊聊构建搜索引擎的基本知识。

微搜索是一个站内(应用内)搜索云服务,大家在听这期节目前,可以尝试一下 Teahour 网站的搜索功能,使用的就是微搜索的服务。搜索引擎是我们用来查询信息的工具,简单说来,做一个搜索引擎,分成三步,即信息搜集、信息整理和支持查询。本期节目中,丁彦介绍了他做微搜索服务时对于搜索引擎实现的经验分享,抓取信息内容的实现、索引信息的实现和实际搜索的实现。

http://teahour.fm/2014/10/19/build-search-engine.html
3835 次点击
所在节点    程序员
23 条回复
greatdk
2014-10-20 12:33:31 +08:00
无法播放?
omengye
2014-10-20 12:43:06 +08:00
Teahour 终于肯更新了
Linxing
2014-10-20 12:53:39 +08:00
好久没更新了啊
manoon
2014-10-20 13:15:52 +08:00
玎玎...
againstodds
2014-10-20 13:43:45 +08:00
嘉宾似乎对搜索讲得不是很自信啊
againstodds
2014-10-20 13:49:56 +08:00
“我爱人”也是一个名词啊,怎么把“我”分出来,没说清楚啊
luin
2014-10-20 13:50:52 +08:00
终于更新啦~
visualrun
2014-10-20 14:26:05 +08:00
回家路上有东西听了
yedingding
2014-10-20 14:42:52 +08:00
@againstodds 中文分词效果很大程度上靠词库。对于词库(字典)来说,爱人是一个词,我爱人是两个词,比如我儿子,我妈妈这些不应该作为一个词单元。所以,当词库里我开头的最多只有两个字的时候,第三个字进来就不需要再判断了。如果场景有必要当成一个词的话,就需要更新词库,加入到常用词里。口水环境比较难讲,有纸笔画会更好一点。
yedingding
2014-10-20 14:43:22 +08:00
@greatdk 是移动端吗,我刚发现有这个问题,需要修复一下。
yedingding
2014-10-20 14:44:07 +08:00
@manoon 咋了,:p
yedingding
2014-10-20 14:44:51 +08:00
@omengye
@Linxing
@luin 我也觉得好久了... 出门一个半月。
zeinimei
2014-10-20 15:37:54 +08:00
这个微搜索很好
yanyanlong
2014-10-20 15:58:10 +08:00
终于。。。更新了。。 已经是tea2hour了, 要变成双月更么。。
kofj
2014-10-20 17:13:10 +08:00
分词是最让人头疼的了(>﹏<)7当遇到多语种混合分词的时候直接酷云在厕所了
ChanneW
2014-10-20 17:17:37 +08:00
怎么拿到邀请码?
manoon
2014-10-20 17:25:41 +08:00
@yedingding 一直以为是,“丁丁“
yedingding
2014-10-20 17:43:55 +08:00
@ChanneW 可以用我的,a8a383085b09
yedingding
2014-10-20 17:44:09 +08:00
@yanyanlong 希望不会...
yedingding
2014-10-20 17:44:46 +08:00
@kofj 实战肯定是各种坑,尤其是 CJK..

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/140202

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX