求爬虫爬一个大型天涯帖子的加速办法

2015-05-29 09:15:17 +08:00

tao1991123

背景

天涯有一个帖子，作者在上面更新自己的某部小说。持续更新了好几年。前两天通过作者的微博得知更完了，但是由于更贴时间太长，这个帖子的灌水回复太多，现在已经有2500多页（注意不是2500楼，是2500页）。

问题

现在希望把作者的内容通过爬虫爬下来，保存为TXT。以前y用Python写过一个爬天涯的爬虫，为了防封IP用的是最笨的办法
time.sleep(1)
小贴很好办，但是这个2500楼的帖子，真心等不起。

请求

求一个可以快点把帖子爬完的办法

6615 次点击

所在节点

Python

26 条回复

mV2GK

2015-05-29 11:41:51 +08:00

用scrapy爬会好点吧。。。

anexplore

2015-05-29 11:43:10 +08:00

到这上面挑几个速度较快的高匿名代理，多开几个进程，http://www.proxy.com.ru/

mahone3297

2015-05-29 12:22:00 +08:00

爬的太快，不怕被ban？
单机，必须要慢慢爬啊。。。

abelyao

2015-05-29 12:38:46 +08:00

@tao1991123

这帖子没几个人是站在楼主这种学习的角度去思考的，而是觉得 1400+ 秒能爬完就完了，万一下次遇到一篇 14000+ 秒的呢？

我对 python 不熟，但是爬虫的思路基本是一直的，无关语言。
首先用 sleep 来卡 1 秒是完全没必要的，这直接影响了爬虫效率。
要防止被 ban 无非就是不断换 IP 地址、user-agent 等等这些识别信息。
多线程并发是肯定要的，保证了你一秒钟可以多爬几个页面，那效率就翻倍提升了。

omph

2015-05-29 12:51:49 +08:00

scrapy，现成的爬虫框架，强大
http://www.oschina.net/translate/build-website-crawler-based-upon-scrapy

imlonghao

2015-05-31 11:57:21 +08:00

@omph pyspider不服

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/194576

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.