github 上搜代码,怎么才能避免重复结果?

2021-03-16 20:58:31 +08:00
 3dwelcome

随便用关键词搜了一点代码,结果发现前几页,很多重复结果。

就是那种文件名和内容一模一样的,我本以为有开关能去重复,结果网上找了一圈,发现并没有。

无语 ing,明显提升用户体验的功能,官方为什么不加上呢?

1704 次点击
所在节点    问与答
10 条回复
hstdt
2021-03-16 21:14:57 +08:00
就算能去重,那到底显示哪个项目的呢
3dwelcome
2021-03-16 21:21:05 +08:00
@hstdt 我随便搜了一个 mmdevapi.dll 英文单词,首页里 10 个结果,有 9 个是重复的,看名字大概率项目也是 clone 的。
这种体验实在是很差,旁边放个骰子,点一下摇几个项目,不是挺好的。
老外太死板,什么项目都希望保留。可是提供的信息越多,越找不到想要的内容,仿佛大海捞针。
ljpCN
2021-03-17 00:13:03 +08:00
1. 为什么要搜代码?
2. 为什么不用谷歌这样的搜索引擎?
楼主能解释下不?说不定解释下能让大家知道面对你的需求有没有更好的方案。避免这是一个 X-Y 问题。
3dwelcome
2021-03-17 00:31:12 +08:00
@ljpCN 我不仅仅做前端,我是开发 windows 的,微软有定义大量的 COM Interface,靠自己个人力量没办法吃透,只能参考前人的代码摸索着来。
以前我一直用 googlecode 搜代码,超级好用,然而前几年倒闭了。
幸亏又起来一个 github,否则真不知道哪里去找代码。
learningman
2021-03-17 01:28:31 +08:00
同头痛,原来看一些 linux 内核的接口也是上 Github 找代码,前一面全是 fork
3dwelcome
2021-03-17 01:53:43 +08:00
@learningman 我打算自己写个去重复脚本,反正我前端也很强。
只要把 github 搜索返回的 html 结果再过滤一次,把有相同路径和相同文件名的 div,折叠一下就可以。
hs0000t
2021-03-17 02:24:33 +08:00
收藏了,伸手党坐等油猴脚本
AndyAO
2021-03-17 07:12:31 +08:00
fork 是可以关掉的,好像是 fork:false
xdeng
2021-03-17 09:22:52 +08:00
同问。
3dwelcome
2021-03-17 11:11:35 +08:00
总结一下,最后用到了老外的去重算法,就不重复造轮子了 [url]( https://alexwlchan.net/2019/09/github-code-search-with-de-duplication/)

原本想写的油猴脚本过滤,可是 github 主页搜索,不能设置分页数量。
举个例子,用 [官网搜索]( https://github.com/search?l=C%2B%2B&q=mmdevapi.dll&type=Code) , 只能返回 10 条数据。我去除 9 条重复, 就只剩 2 条结果了。

而改用 [API 搜索]( https://api.github.com/search/code?q=mmdevapi.dll+language:cpp&access_token={xxx}) ,能直接一次返回 1000 条结果!

两者差距太大,只能放弃油猴了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/762258

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX