爬虫并发下载文件（求助）

2019-12-25 10:36:45 +08:00

BryceBu

我需要下载某个网站上的多个文件，本来用 requests，但是下载速度非常慢，而且是同步的

查了一些资料后发现这个库：grequests

人家基本是这么用：

req = (grequests.get(u) for u in urls)

resp = grequests.map(req, size=10) # 10 个并发

但是我仿照这样写了以后，得到的结果 with open 后不是正确的文件，哪位大佬知道如何异步爬取文件并保存？

1691 次点击

所在节点

10 条回复

gwy15

2019-12-25 10:48:22 +08:00

用 aiohttp

BryceBu

2019-12-25 11:58:13 +08:00

1462326016

2019-12-25 11:58:31 +08:00

1 楼正解

1462326016

2019-12-25 11:59:36 +08:00

如果爬取的文件不正常的话那么就是你发送的请求有问题。requests 和 aiohttp 基本用法是一致的

rimutuyuan

2019-12-25 12:00:58 +08:00

爬取成功后加到队列，依次保存

BryceBu

2019-12-25 12:01:21 +08:00

@1462326016
返回码是 [200 OK]

1462326016

2019-12-25 12:05:05 +08:00

@BryceBu 不能光看状态码，还有下载下来的文件是不是正常的，如果请求一样的话，只是异步发送的，那么同样的 URL 下载的内容应该是一样的。如果可以的话贴个网址大家看下

gwy15

2019-12-25 12:35:52 +08:00

如果不是文件大到内存装不下，不需要按 stream 读。直接
data = await resp.read()
with open(): write
就可以了。

你只传了 cookie 和 params，很大概率是因为 UA、host、referer 之类的被挡下来了，自己检查下就知道了。

ixuuux

2019-12-25 14:01:04 +08:00

#2 写入文件的方式有误，改为 ab 试下
![6435a8b4c9163e28fbd8a66451a744b7]( http://tvax3.sinaimg.cn/large/005WOYz1ly1ga8xhtkpusj30hv052q3n.jpg)

whoops

2019-12-25 18:29:56 +08:00

不是解答你问题的答案，但是可以参考一下
python 爬虫把要下载的文件丢给 aria2 去下载

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.