业余开发了一个技术搜索引擎,请小伙伴们提提意见。

2019-06-16 21:48:16 +08:00
 nyfok

如题,最近业余开发了一个搜索引擎,面向程序员领域,收录了国内技术网站和国外 github,stackoverflow 等网站。解决国内不能访问 google 的痛点,以及某些搜索广告太多的问题。

纯粹手痒,做着玩玩看,目前蜘蛛的索引面还在不断增加中。在开发过程中优化了分词和 ranking 的算法,如果谁有好的 page ranking 算法建议,欢迎跟帖。

欢迎大伙多提改进意见(拍砖请绕行),也请帮忙判断一下,这个产品有没有留着的必要,如果没有保留必要,我玩一阵子就准备把网站关了。

谢谢大伙。ps:goobe.cn

14362 次点击
所在节点    分享创造
115 条回复
nyfok
2019-06-22 14:32:55 +08:00
根据 v 友的建议,goobe 的搜索分词和排序已经进行重新调整,后续还有什么问题或者建议,可以在这儿跟帖。谢谢。
fish420
2019-06-22 19:36:00 +08:00
这么实用的东西当然有必要留着
fish420
2019-06-22 19:36:11 +08:00
兄弟,这么实用的东西当然有必要留着
nyfok
2019-06-22 20:21:15 +08:00
多谢老兄鼓励,就冲着老兄,我也先保留着,至少保留半年,这半年里继续完善技术和产品体验。谢谢支持,开心!
lxmwq
2019-06-22 21:12:10 +08:00
好东西,实用性很强,赞赞赞
nyfok
2019-06-22 21:20:39 +08:00
多谢多谢,这个周末太高兴了。干着也开心,谢谢你!
lxmwq
2019-06-22 21:36:49 +08:00
应该是感谢作者大大,提供一个这么好用的东西。
nyfok
2019-06-23 10:15:13 +08:00
@lxmwq 多谢朋友支持,今天周末在家,继续开发,多做几个技术站的索引。也祝你周末愉快!
gudong
2019-06-24 13:09:34 +08:00
体验不错,好评!
nyfok
2019-06-24 18:01:48 +08:00
@gudong 多谢褒奖,我继续努力
nyfok
2019-06-24 21:31:11 +08:00
随着索引的文章规模越来越大,现在查询也越来越慢,今晚开始调整 maxdoc 到 10000,明后天拆大小库,把质量好的文章单独放小库,搜索时文章质量好的小库优先,以此来提高搜索速度。
nyfok
2019-06-24 23:05:41 +08:00
速度问题已经升级,可以放心使用了
nyfok
2019-06-26 10:06:02 +08:00
昨晚已经运用分片缓存技术,搜索和翻页会更快了,尤其是翻页基本 0 等待。另外,各位朋友期望 goobe 索引哪些国外技术网站,欢迎下面跟帖回复。切记,是“国外技术网站”,国内的暂时排期往后靠。
ibreaker
2019-06-26 19:08:58 +08:00
这个是自己写爬虫爬数据吗?工作量应该很大吧
nyfok
2019-06-26 21:48:54 +08:00
是,自己写的爬虫,反正有时间就写点,也不刻意。工作量还是有点的。
skyrem
2019-06-27 13:41:33 +08:00
赞一个
https://hotexamples.com/ 这个站考虑收录一下吗
abc1763613206
2019-06-27 14:14:20 +08:00
https://stackexchange.com/sites

问答类的话,个人认为可以从 stackexchange 挑点例如 askubuntu 等站点索引进去
abc1763613206
2019-06-27 14:21:19 +08:00
另外可以把大项目的文档加进去,例如 php manual
darcy900
2019-06-27 16:09:15 +08:00
nb
nyfok
2019-06-27 16:22:52 +08:00
@skyrem 这个网站看了一下流量还不错,api 文档也还比较清晰,就是页面广告有点多和乱。后期会收录,但排期会靠后。多谢!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/574523

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX