万能的 V2er,有没有大牛爬取了过网易云的所有评论..

2017-12-28 23:59:06 +08:00
 Va1n3R

楼主用的是 python,自己写太蛋疼了,数据量太大了,还需要购置 IP 写代理池,穷学生没有资金。想问问有没有什么简约点的方法可以爬取或者有现成的数据。
看到了 https://github.com/Binaryify/NeteaseCloudMusicApi 这个项目,想使用这个大兄弟的接口,但是怕调用量太大了,被网易端掉,不想害人...
之前没有想过做这么大的爬虫,主要目的想做成数据库,让用户可以查询自己名字有没有被告白过~~可能很无聊~~

等实现了,想用这些做很酷的事情...

5783 次点击
所在节点    Python
30 条回复
luohaihao
2017-12-29 09:59:30 +08:00
爬过。不过那是两年前的了,也是直接访问 API,不用全部链接都爬。可以省很多事情,还有 ip 复用也很重要,当时还是慢慢爬的基本没事,所以不想花钱那找免费的代理然后慢点来,
omghonor
2017-12-29 11:31:26 +08:00
我只爬了曲库,歌手库以及热评(没有爬全部的,就是上面的热门评价,包括点赞数等),还没触发网易云的底线~~
https://github.com/Charley-Hsu/spider_music
F1024
2017-12-29 16:50:08 +08:00
PythoneerDev6
2017-12-29 16:56:07 +08:00
给你个传送门 :github.com/xiyouMc/ncmbot
Va1n3R
2017-12-29 17:44:02 +08:00
@F1024 爬虫我会写啊...这个简单的很。热评都没有经过加密
vtwoextb
2017-12-29 17:52:25 +08:00
更换 IP 策略
vtwoextb
2017-12-29 17:54:27 +08:00
用这个就行 github.com/hizdm/dynamic_ip 采用重启或重新拨号路由器就可以
Va1n3R
2017-12-29 18:30:03 +08:00
@vtwoextb 我校园网,正好是 DHCP,可行!
Va1n3R
2017-12-29 18:30:32 +08:00
@luohaihao 感觉就是构建代理池太麻烦了
vtwoextb
2017-12-29 18:55:04 +08:00
@Va1n3R 你看看 重启一下 宿舍的路由器 ip 变不变 要是变就行 要是不变 那就只能用代理了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/418459

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX