我想做一个行业内的搜索,或者“搜索引擎”,有一些细节的问题想咨询一下

2014-04-01 13:37:37 +08:00
 simapple
数据抓取基本上没有问题 也不会涉及特别复杂的 scrapy 完全可以搞定 我打算抓取 分词 格式化入库 都用python

1.分词有没有什么建议,我知道大概是2种 一种是使用现有的词库进行分成,还有一种是用机器学习,不断的识别新词,词库也就在不断的更新,由于对算法这块不是很熟练,现成的模块里nltk 比较好,但是不支持中文,所以分词这块需要带有现成词库的用哪个比较合适?
2.我不是很清楚对于大量数据的搜索是怎么做的,是先检索关键词再在做全文搜索?
3.对于数据存储这块,我用的mongodb,目前有几百万条的数据,以后会逐渐增加大概维持在2-3千万左右的数据,用mysql 能行吗?mongodb的话 有没有不合适的地方?

我是web程序开发,对搜索和数据这块不是特别了解,都是自己边学边练的,也不要求有多么精妙的算法,现在一点一点在从各种算法研究,也有点太慢了,希望有过这方面开发和经验的,给点建议,先谢过
2142 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/106790

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX