万能的 V2er,有没有大牛爬取了过网易云的所有评论..

2017-12-28 23:59:06 +08:00
 Va1n3R

楼主用的是 python,自己写太蛋疼了,数据量太大了,还需要购置 IP 写代理池,穷学生没有资金。想问问有没有什么简约点的方法可以爬取或者有现成的数据。
看到了 https://github.com/Binaryify/NeteaseCloudMusicApi 这个项目,想使用这个大兄弟的接口,但是怕调用量太大了,被网易端掉,不想害人...
之前没有想过做这么大的爬虫,主要目的想做成数据库,让用户可以查询自己名字有没有被告白过~~可能很无聊~~

等实现了,想用这些做很酷的事情...

5770 次点击
所在节点    Python
30 条回复
Va1n3R
2017-12-28 23:59:57 +08:00
V2 对 markdown 的支持好迷啊...
lhx2008
2017-12-29 00:05:21 +08:00
没爬过,如果封 ip 的话,去买那种可以快速失效的 ip,大概一个 1 毛这样子,不过这个数据量太大了,就算开多进程 0.1s 一个一天也爬不了多少。
Va1n3R
2017-12-29 00:07:27 +08:00
@lhx2008 是的,量实在太大了。
yu099
2017-12-29 00:09:24 +08:00
搜索引擎索引不到吗?得自己抓?
scriptB0y
2017-12-29 00:12:14 +08:00
@yu099 不太好搜,网易对搜索引擎没做很好

Va1n3R
2017-12-29 00:15:28 +08:00
想到了一个方法
爬取数据,然后如果有包括人名的评论,就把这条评论的定位信息(歌曲,多少条)记录下来,数据应该会小几个几何倍
现在机器学习这么火热的情况下,不知道有没有大牛训练了识别人名的模型,集成好了库..
爬虫我也想尝试一下写一个分布式爬虫出来,但就是怕封 IP...
haozibi
2017-12-29 00:22:17 +08:00
网易云都是段子,有什么好看的
oonnnoo
2017-12-29 01:13:22 +08:00
上次有个兄弟爬,收到过律师函哟
Va1n3R
2017-12-29 01:22:09 +08:00
@haozibi 查看有没有在评论中提到过你....
Va1n3R
2017-12-29 01:22:42 +08:00
@oonnnoo 爬虫并不犯法...那个新闻好久之前了吧,搞得好多人觉得爬虫是违法的...
AlwaysBehave
2017-12-29 02:44:41 +08:00
@Va1n3R 准备好 1kw 了吗
https://music.163.com/html/web2/service.html
不过网易应该要不起 1kw
tadtung
2017-12-29 07:56:57 +08:00
@Va1n3R 爬虫本身不违法,但是使用爬去的数据就有法律风险了。
当年大众点评赢过评论爬取官司,baidu 也告赢过 360。

目前来说网易云的评论,著作权和使用权属于网易,如果你爬去后用作商业,网易轻松告你的。
qu3290052
2017-12-29 08:13:02 +08:00
@tadtung 那就是数据二次利用的问题,跟爬虫无关,爬虫不背锅
uolcano
2017-12-29 08:16:09 +08:00
@Va1n3R 前几天逛微博时看到个人名分词库。看看这条微博? http://overseas.weico.cc/share/12850316.html
Flobit
2017-12-29 08:49:19 +08:00
我尝试过,只是爬了很少很少的一部分,至于你说的 ip 我用的是免费的那种高匿 ip。
tadtung
2017-12-29 08:54:47 +08:00
@qu3290052 我不是第一句就说了爬虫不违法。。。。你这没看清
MrXiong
2017-12-29 08:57:17 +08:00
我试过,爬了 1kw 左右,就爬不动了,ip 消耗太大,10 个线程爬的,慢点的话估计消耗慢些,但是很浪费时间
shmon
2017-12-29 08:58:49 +08:00
我有,1.6 亿条,17.5G
shmon
2017-12-29 09:09:03 +08:00
看错了。。。是另一个平台的。。。。。忽略忽略
holajamc
2017-12-29 09:48:48 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/418459

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX