想要弄一个 github 的爬虫,然后开放爬到的 github 数据

2016-12-16 16:37:39 +08:00
 imcj
想到的可以爬到的内容有 git 仓库信息、会员信息。

今天突发奇想,想分析各种库的引用情况。
6215 次点击
所在节点    奇思妙想
31 条回复
holajamc
2016-12-22 08:59:38 +08:00
@imcj 目前还在完善~
imcj
2016-12-22 09:01:15 +08:00
@holajamc 是从网页爬数据?还是从 api ?
holajamc
2016-12-22 10:43:26 +08:00
@imcj 从网页采集数据, api 几分钟次数就用完了……
imcj
2016-12-22 14:28:27 +08:00
@holajamc 上面那个哥们给的 ghtorrent 好像是用非常多的 api key
Codewj
2016-12-22 14:50:41 +08:00
楼主的项目进行的怎么样了
imcj
2016-12-22 15:33:30 +08:00
@Codewj 没有开始这样的项目,只是一个 idea ,想看看有没有人已经弄过了。交流一下先。

你曾经也考虑过这样的东西?
qdk0901
2016-12-23 18:17:23 +08:00
@imcj 数据还在,没整理很乱, mongodb 存的, 10G 左右
imcj
2016-12-24 00:23:38 +08:00
@qdj0901 还准备继续吗?都做了些什么?
gaocegege
2016-12-26 14:21:39 +08:00
https://github.com/gaocegege/scala-github-relationship

之前无聊的时候有做过类似的,一开始单机多线程类似事件驱动来爬的, API rate limit 很成问题,后来只能用单线程同步来做。

对于 limit 的问题,比较好的解决方案是用多几个帐号,用 token ,好像用的好的话 20 多个帐号就可以爬全站。
Codewj
2016-12-26 22:50:58 +08:00
@imcj 有想法,做个毕业设计
imcj
2016-12-26 22:54:28 +08:00
@gaocegege 嗯,有很多设想都是建立在数据完整的情况下。爬数据很费时费力。

@Codewj 可以多交流,这个帖子里面就有几个人在做这件事。我以前爬过网页,但是后来没有继续。

如果有可能,大家一起维护一份数据每个人都轻松。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/328129

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX