用 Python 抓取图片,用 wget 下载,那速度,让你怀疑人生

2018-08-02 16:35:54 +08:00
 cr4fun

1、clone

git clone https://github.com/pmthink/get_pic_for_4chan.git

2、install

cd get_pic_for_4chan

pip3 install -r install.txt

3、download

python3 get2.py

demo

说明,本来想用多线程的,但是搞来稿去,觉得还是 wget 简单粗暴有效。

后续,打算做成 sqlite 的,把每个图片存进去,以便日后更新时不重复下载。

当然,为了追溯,最好能用区块链把图片的指纹给上链,哈哈哈。

声明,本程序默认下载 diy 频道的手工制作方面的图片,你们若用这个爬虫下载其他频道的东西,毁了三观可和我无关。

6251 次点击
所在节点    Python
16 条回复
qsnow6
2018-08-02 16:45:28 +08:00
迅雷了解下
Mogugugugu
2018-08-02 17:03:36 +08:00
搞出一堆下载链接,然后扔在迅雷里面不就好了么 - -
OpenJerry
2018-08-02 17:07:18 +08:00
楼上+1,把下载链接整理好,批量导入专门的下载工具
imn1
2018-08-02 17:12:00 +08:00
1.下载工具
2.多个 wget 一起来,我以前就是这样
imn1
2018-08-02 17:12:59 +08:00
@imn1
3.pip install wget
import wget
……
annielong
2018-08-02 17:55:20 +08:00
以前懒省事,也用 python 采集图床,直到下载到两三百兆大小的 GIF 文件,把 python 拖崩溃
tomfs
2018-08-02 17:56:45 +08:00
python 调用迅雷的 SDKServer 了解下?
shengyu
2018-08-02 18:19:47 +08:00
RPC 调用 aria2 怎么样
cr4fun
2018-08-02 18:29:49 +08:00
@shengyu 这个比较好,至少可以丢到服务器上去下载。
longyutao444
2018-08-02 21:47:39 +08:00
还好有最后一句,要不谁知道是 hm 还是 hc …
RqPS6rhmP3Nyn3Tm
2018-08-02 22:56:20 +08:00
switch fork()
case 0: execl(blah blah)
msg7086
2018-08-03 03:41:44 +08:00
aria2 的链接文件批量下载了解一下,还能重用 HTTP 连接。
xiaqi
2018-08-03 07:24:52 +08:00
调用 wget,还不如调用 axel,多线程,而且还不怕网络中断
cz5424
2018-08-03 09:28:17 +08:00
系统命令调用 wget &😉
jimmyczm
2018-08-03 09:41:09 +08:00
我用 requests。。感觉还可以
cr4fun
2018-08-07 17:49:34 +08:00
@jimmyczm requests 很慢啊

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/476319

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX