Python 有什么处理大量文件下载的方法

2018-09-12 00:11:14 +08:00

angel725

有几百个文件。但都不大，最大的也就几兆

我用 pycurl 下载。

我把下载地址放到列表里了。

取出第一个下载，等下完了，在取第二个。

但问题是，几百个下载连接，pycurl 怎么判断当前文件下载完了，然后开始下一个。

2321 次点击

所在节点

10 条回复

imn1

2018-09-12 00:26:22 +08:00

还不如扔 idm/wget/aria2 ……

billlee

2018-09-12 00:26:54 +08:00

如果只要一个个下载，你调 curl.perform 阻塞在那里就好了啊

WO31400

2018-09-12 00:54:06 +08:00

为什么不直接 requests.get

Qzier

2018-09-12 01:37:51 +08:00

用 aiohttp+aiofiles 异步下载

gefranks

2018-09-12 01:41:45 +08:00

我前段时候是用 requests 来下的.3 万 3 千多个几十到几百兆的文件.
取 content-length 然后跟下下来的文件做比较.
其实文件仍然有下坏掉的可能,所以我对重要的文件是下 2 遍,然后再去做字节的比较,我觉得下 2 次都下坏掉的几率不是非常大.
当时也碰到会有断流停住的问题

xmoiduts

2018-09-12 04:22:24 +08:00

concurrent.futures 的 map()?
(好像现在流行 aio 什么了……看来我的方案老了，不过我东西不多这么搞也没问题过)

noqwerty

2018-09-12 05:15:46 +08:00

以前处理过跟你类似的问题，当时抱着学习的心写了 200 多行的 aiohttp+aiofiles，现在就只用 Python 生成链接然后全丢到 aria2 ……

delectate

2018-09-12 06:45:30 +08:00

交给 aria2，剩下的该干嘛干嘛去。

congeec

2018-09-12 10:23:46 +08:00

shell 脚本绝对不超过 3 行

angel725

2018-09-12 11:25:48 +08:00

重点是怎么判断 pycurl 下载完了一个文件
若没下完，怎么让程序等待它下完。用 time.sleep 整个程序都会暂停。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.