业余开发了一个技术搜索引擎,请小伙伴们提提意见。

2019-06-16 21:48:16 +08:00
 nyfok

如题,最近业余开发了一个搜索引擎,面向程序员领域,收录了国内技术网站和国外 github,stackoverflow 等网站。解决国内不能访问 google 的痛点,以及某些搜索广告太多的问题。

纯粹手痒,做着玩玩看,目前蜘蛛的索引面还在不断增加中。在开发过程中优化了分词和 ranking 的算法,如果谁有好的 page ranking 算法建议,欢迎跟帖。

欢迎大伙多提改进意见(拍砖请绕行),也请帮忙判断一下,这个产品有没有留着的必要,如果没有保留必要,我玩一阵子就准备把网站关了。

谢谢大伙。ps:goobe.cn

14376 次点击
所在节点    分享创造
115 条回复
nyfok
2019-06-27 16:26:20 +08:00
abc1763。。 大文档的确要加,准备把各大语言的官网 api,manual,论坛都要加进来。stackexchange 的确可以多加几个,我回头挑挑,看哪些是 IT 的都加进来,不局限于编程领域,只要是 IT 就行。多谢!
zskyliang
2019-06-27 17:36:18 +08:00
楼主大大凶残啊 很实用的网站
要是有相关开发教程让有兴趣的人学习下那就更舒服了
nyfok
2019-06-27 22:40:35 +08:00
@zskyliang 感谢朋友褒奖!你讲的开发教程是指开发搜索引擎的教程,还是别的教程网站需要我索引供大家搜索?如果是关于如何开发这个搜索引擎的内容,我抽空可以跟帖把做的过程回帖告诉你。如果是需要索引教程网站,请告知具体网址。谢谢!
zskyliang
2019-06-28 09:37:32 +08:00
@nyfok 前者哈 可以写个博客分享下细节 感谢。
verylucky
2019-06-28 09:54:01 +08:00
想了解一下,楼主这个网站服务器是什么配置,索引的文章规模有多少 G。想有空的自己也弄一个玩玩,练练手。
zdnyp
2019-06-28 10:02:31 +08:00
不允许拍砖 /溜了
nyfok
2019-06-28 12:09:53 +08:00
verylu...,8 vcpu,4g mem,目前索引在 100G 左右。
zskyli..,我直接写这儿吧,长篇的博客太花时间了,我在这篇文章里尽量一点点写,今天先写抓取部分吧。
vsitebon
2019-06-28 14:58:47 +08:00
太棒了,大佬请务必把技术大概写完
lbunderway
2019-06-28 16:42:15 +08:00
点赞 支持楼主
nyfok
2019-06-28 22:51:52 +08:00
谢谢楼上朋友 vsite.., lbunder...支持
tonywangcn
2019-06-28 23:14:41 +08:00
nyfok
2019-06-29 11:03:47 +08:00
感谢 tonyw。。。!首先解释一下为什么这么做。因为我觉得技术搜索是比较严肃、严谨的事情,宁可结果少,也要确保结果正确。支持近义词(例如西红柿=番茄)、单复数(例如 have=has,microservice=microservices )是会让结果内容多一点,也可以解决用户输入错误或者不严谨的问题,但是为了维持结果的准确性,暂时不准备广泛支持这两个功能。只会小范围内支持,譬如.net=> .net or c# or vb.net ,这种类似逻辑。 其次,tony,你有没有比较好的近义词库和单复数库,有的话可否分享一下,我也学习参考一下。谢谢!
14c0r3y
2019-06-29 16:27:19 +08:00
哇塞 好棒!用来当默认引擎了~
nyfok
2019-06-29 20:05:05 +08:00
@14c0r3y 感谢支持,祝周末愉快!
kayv
2019-06-30 13:49:39 +08:00
很棒的项目
nyfok
2019-06-30 15:38:14 +08:00
@kayv 感谢支持,周末愉快!
ZeroW
2019-07-01 17:38:46 +08:00
楼主考虑加一下相同网站聚合呗
nyfok
2019-07-01 19:18:45 +08:00
@ZeroW 谢谢建议!后期抽空会做“相同内容”聚合,“相同网站聚合”可能会在搜索第一页有聚合,列出来同一网站符合结果的文章。另外,后期也在考虑支持 insite 命令,方便大家筛选。
Cyen
2019-07-02 14:30:43 +08:00
很棒的项目,期待开源
kios
2019-07-03 08:04:38 +08:00
点赞! 很厉害

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/574523

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX