Python3 爬虫请教

2024-06-27 20:39:20 +08:00
 wanchenyi

各位佬,请教一个问题,我写了一个下载 ts 视频的爬虫,在电脑上,开了 30 个线程去下载,就能达到 6MB/s ,现在我把这个脚本放到斐讯 N1 盒子的 docker 容器上去下载,把线程修改成了 4 个,结果下载就很慢,有什么办法能提升呢,想请各位指点哈,斐讯盒子接了移动硬盘。感谢各位指点。这里可能是线程的原因,我想知道的是如何提升下载速度,感谢各位。

2648 次点击
所在节点    Python
10 条回复
yzding
2024-06-27 21:15:35 +08:00
你看看你接硬盘写入速度是多少
lulinihao
2024-06-27 21:54:20 +08:00
电脑 4 线程速率是多少?
Mrrobot233
2024-06-28 08:38:13 +08:00
b 站搜下携程相关的内容,具体的我也忘了,21 年写过,现在 python 不知道咋样了
su14772
2024-06-28 09:17:32 +08:00
python 非最新版本的话,多线程有 GIL 锁,用不了多核心,意义不大。下载视频的爬虫,时长可能会很长,异步协程可以加速,但是应该也加不了多少。试试多进程+协程吧
gray0
2024-06-28 09:28:27 +08:00
+线程 = +下载速度,这个不相等吧 ,莫名其妙啊老哥
下载视频可以试试开源项目
https://github.com/soimort/you-get
EndlessMemory
2024-06-28 09:57:55 +08:00
也开 30 个线程
xxxccc
2024-06-28 11:26:09 +08:00
@su14772 跟 GIL 锁没有任何关系,下载本身就是 io 多的情况,这个情况下 GIL 不会对并发有影响的。
yagamil
2024-06-28 12:46:05 +08:00
斐讯的 N1 盒子 usb2.0 质量不行。
lzZzeucJri6FcR0o
2024-06-28 17:39:53 +08:00
@su14772 #4 大错特错。。。爬虫用的就是多线程,和 GIL 锁没关系,多核性能用在 cpu 密集计算
lc1450
2024-07-03 21:24:07 +08:00
换个思路呢,python 只负责解析下载链接,调用 aria2 下载,轻松跑满带宽。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1053194

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX