业余开发了一个技术搜索引擎,请小伙伴们提提意见。

2019-06-16 21:48:16 +08:00
 nyfok

如题,最近业余开发了一个搜索引擎,面向程序员领域,收录了国内技术网站和国外 github,stackoverflow 等网站。解决国内不能访问 google 的痛点,以及某些搜索广告太多的问题。

纯粹手痒,做着玩玩看,目前蜘蛛的索引面还在不断增加中。在开发过程中优化了分词和 ranking 的算法,如果谁有好的 page ranking 算法建议,欢迎跟帖。

欢迎大伙多提改进意见(拍砖请绕行),也请帮忙判断一下,这个产品有没有留着的必要,如果没有保留必要,我玩一阵子就准备把网站关了。

谢谢大伙。ps:goobe.cn

14403 次点击
所在节点    分享创造
115 条回复
nyfok
2019-07-04 01:08:04 +08:00
多谢 cyen,kios 的支持,谢谢!
nyfok
2019-07-05 10:44:03 +08:00
补充一下,现在网站还不支持 insite,inurl 命令,这几天在调整索引大库,调整完后就支持了,届时再通知。
dirkl
2019-07-06 09:41:04 +08:00
感谢楼主,用了一下很不错,设成默认搜索了,国内搜索真不灵
ziiber
2019-07-06 18:09:21 +08:00
楼主牛批(破音) 收藏了。
nyfok
2019-07-07 10:42:47 +08:00
多谢 dirk,ziib.. 两位朋友支持,周末愉快
scriptB0y
2019-07-07 11:55:32 +08:00
赞楼主,问几个问题:

1. 分类是怎么做的呢?实现定义好不同站点的内容属于不同的分类吗?
2. 现在是抓固定的站点吗?
3. 不知道 Google 如何对待其他搜索引擎站... 感觉有些搜索引擎站展示的内容也被 Google 收录了进去。。。
nyfok
2019-07-07 12:26:16 +08:00
@scriptB0y 谢谢支持,回复如下:
1、分类是基于 URL 正则规则来写的。譬如:默认为普通文档,如果符合(/topic/)|(/BBS/)为论坛,(Blog)为博客。
2、现在是抓固定站点。全网发散抓取技术准备好了,但是准备先集中优势把几个固定站点抓完,再上全网抓取。
3、具体我不知道,如果我做的话,会这么做。第一、写一个算法能够自动分类:是列表页,还是详情页。因为列表页的 href/正文比例,和详情页不一样,而且列表页通常会多内容 topic。 第二、计算如果一个站点的列表页的百分比超过一定比例的话,列表页就不收录了,只收录详情页。
nyfok
2019-07-07 12:28:40 +08:00
@scriptB0y 另外,还需要计算一个网站详情页的正文内容的原创度和首发度。以确定这个网站的内容的原创性和优质性,以此来决定是否收录,以及查询时排序的先后顺序。因为,一般二道搜索引擎,或者文章转载系统的内容,普遍缺乏原创性,发布的速度肯定滞后于首发平台。
zy5a59
2019-07-07 15:52:46 +08:00
很清爽,赞楼主
nyfok
2019-07-07 17:14:49 +08:00
@zy5a59 谢谢支持,周末愉快!
hst001
2019-07-07 18:18:05 +08:00
楼主你这个服务器一个月花了多少钱?放香港是为了解约成本?
nyfok
2019-07-07 19:13:25 +08:00
一个月小伍佰,放那儿不需要 bei_an,就是个人练手项目,不想太折腾。
ccc825
2019-07-08 09:57:47 +08:00
感觉速度稍微有点慢,搜 Stack Overflow 谷歌大概 0.9 秒,但是楼主的网站需要 3.9 秒。F12 看了一下谷歌好像是页面先出来然后剩下好多 png 什么零碎的用了一秒多加载。页面很清爽但是下方留白较多,搜索框可以适当往中间移一点。希望自己也能达到楼主这种水平。
nyfok
2019-07-08 10:29:16 +08:00
@ccc825 多谢朋友建议和支持!可否告知你搜索的关键字,我查查看搜索慢的原因,看是服务器端搜索速度问题,还是页面加载速度问题。目前页面上加载的图片除了 logo 图是 goobe 自己本站的,其他的网页 logo 图都是指向源网站的,如果源网站慢,可能图片加载就有点慢。另外,UI 不是我的擅长,以后期待能找一个厉害的 UI 朋友帮忙 refine 一版网站。
ccc825
2019-07-08 11:12:54 +08:00
@nyfok 关键词是 Stack Overflow,指的是点击搜索按钮到页面出现文字的时间。我用的是 chrome,我看谷歌是出现页面之后标签加载动画还在继续转圈应该是在加载剩下的,而 goobe 是出现文字同时结束加载,我猜应该是这里出现的时间差
nyfok
2019-07-08 12:17:06 +08:00
@ccc825 收到,我理解你的意思了。的确,服务器端搜索 Stack Overflow,花费的时间是毫秒级的。如果速度慢,一个可能是服务器到用户电脑之间的速度慢,还有一个可能是页面图片的加载逻辑和网页 html 一起同时加载了。我后期会把图片加载顺序学习 google,在页面 html 加载后再加载图片,懒加载。多谢你的建议,非常好,感谢!
jackFenng
2019-07-08 16:45:59 +08:00
优秀优秀..同.net 程序员
nyfok
2019-07-08 17:06:29 +08:00
@jackFenng 老兄,幸会幸会!(握手)老兄是只搞.net ,还是说也搞其他语言,主力是什么编程啊?现在.net 工作好找吗?行情怎样?
mqqjqr5566
2019-07-09 08:34:55 +08:00
原理就是自己做了个浏览器,用鼠标在浏览器上选择节点.
请问:这是用什么实现的啊. 这个工具能开源不.
qw30716
2019-07-09 17:14:12 +08:00
试了一下,准确率不行

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/574523

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX