想要弄一个 github 的爬虫,然后开放爬到的 github 数据

2016-12-16 16:37:39 +08:00
 imcj
想到的可以爬到的内容有 git 仓库信息、会员信息。

今天突发奇想,想分析各种库的引用情况。
6190 次点击
所在节点    奇思妙想
31 条回复
JoyNeop
2016-12-16 16:58:49 +08:00
曾经有个 GitHunt ,现在可以用 zaoshu.io 搞一个。。。(强插广告手动滑稽
imcj
2016-12-16 17:33:10 +08:00
@JoyNeop 没有 google 到相关的链接。 zaoshu 是您的产品?
DoraJDJ
2016-12-16 17:48:48 +08:00
直接用 GitHub 的 API 不行吗?
bazingaterry
2016-12-16 17:53:22 +08:00
自己爬自己,噢,无限递归 😯
upczww
2016-12-16 17:55:31 +08:00
有 api
imcj
2016-12-16 18:06:36 +08:00
@DoraJDJ 允许频次不够用。

另外我都想法只开发数据库只读权限
imcj
2016-12-16 18:06:51 +08:00
@upczww 嗯,频次不够用。
lucifer4he
2016-12-16 18:50:01 +08:00
多注册几个账号。多用几个 token 问题解决 啊哈哈

总比爬起来解析数据好受点
gdsagdada
2016-12-16 19:06:50 +08:00
不道德, github 现在还在亏损,楼主给它省点带宽
Mdrights
2016-12-16 19:48:35 +08:00
已經有 Telegram 的 bot 了
nsa
2016-12-16 21:37:33 +08:00
可以先用 ghtorrent 的练
imcj
2016-12-16 22:44:16 +08:00
@lucifer4he 从我个人的需求上的确是解决问题了。我觉得弄一个开放的 GITHUB 数据库这件事听起来不错。

@gdsagdada 爬取目标网站数据这件事情不算不道德,算的话,那 google 怎么说? Github 亏损这件事情,我觉得从另外一个角度上来看,这是他们赢取资本的策略。

@nsa 感谢推荐。
qdk0901
2016-12-19 08:56:22 +08:00
不好爬,我之前写过一个,挂 vps 上爬了一个月,用 tor 不停切换出口 ip 来绕过限制,只爬了 300 多万用户 /仓库的信息,也不是全部信息,只有一部分,比如只有用户 /仓库前几页的 following/followers/stars 等信息。
这东西还是放弃吧,最终也没什么卵用
qdk0901
2016-12-19 08:59:57 +08:00
最终我是用 word2vec ,分析用户仓库关系,做了一个类似于地图的玩意,我称之为代码地图
用 d3.js 做了可视化
http://transing.xyz/codeatlas.html
holajamc
2016-12-19 09:20:48 +08:00
做过一个,嗯目前已经改成了毕设项目……
HolaJam/github_relationship
imcj
2016-12-19 16:34:32 +08:00
@qdk0901 这些数据还在吗?

@holajamc 没看懂。
holajamc
2016-12-20 16:33:45 +08:00
就是我也在做关羽 github 的一个程序
描述 github 用户之间的关系,用户和 repo 的关系
imcj
2016-12-20 17:01:01 +08:00
@holajamc 现在还在进行中吗?交流一下。
holajamc
2016-12-21 11:01:14 +08:00
@imcj github 可以看到项目地址……为了给 github 省带宽就没有写多线程~目前只是做了用户关系,做好了 Neo4j 版本和 MariaDB 版本, MongoDB 正在做,然后就是 repo 的接口也是写好了的包括自己的 repo , star 的 repo 和 fork 的 repo
imcj
2016-12-21 16:35:21 +08:00
@holajamc 已经可用了吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/328129

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX