昨天晚上写了个 Python 程序,下载了一个福利网站 5000 来张妹子图片

2015-08-24 09:48:39 +08:00
 liuxu
github:
https://github.com/liuxu0315/download_nvshen_so

执行:$ python nvshen_so.py

用了多线程, 8 条线程,在 /tmp 下生成 nvshen_so/01 等文件夹并下载到相应的目录。
里面有 2 行代码被注释掉了,它们是配套的,用来下载 2014/12/下的图片,有几百张。

现在有个问题,我的程序无法一次全部下载完,总是漏一点,要么是执行一段时间后就卡死不动了不知道是什么原因。。
当然下载图片前有判断是否有该文件,可以重复执行下载程序,不过这个治标没治本。。
16918 次点击
所在节点    Python
108 条回复
publicID001
2015-08-24 10:01:40 +08:00
import sqlite
Aidea
2015-08-24 10:13:22 +08:00
煎蛋妹子吗
vmebeh
2015-08-24 10:13:44 +08:00
看看是卡在哪一步,一般是下载的时候卡了吧,设置超时,等超时了重试;复杂点就是 1L
Tink
2015-08-24 10:28:46 +08:00
也有可能是防爬虫导致的
rming
2015-08-24 10:30:55 +08:00
额 fork 来学习下
liuxu
2015-08-24 10:36:42 +08:00
@publicID001
@vmebeh

谢谢,我的 /tmp 是 ramdisk ,应该不是硬盘速度问题。。我看看是不是超时的原因
liuxu
2015-08-24 10:37:13 +08:00
@Aidea nvshen.so ,女神吧。
sangmong
2015-08-24 10:38:19 +08:00
我只想问一句:照片呢!!
liuxu
2015-08-24 10:39:06 +08:00
@Tink 我多次执行脚本没问题,他们网站用 wordpress 搭建,图片命名还是 1.jpg,2.jpg 这样的,应该没有做防爬虫。
liuxu
2015-08-24 10:39:43 +08:00
@sangmong 哈哈,自己用 python 跑
loading
2015-08-24 10:42:11 +08:00
用 webzip 不就好了~配合 everything ,何必自己写。

学习除外!
a308057848
2015-08-24 10:46:18 +08:00
不要老是偷偷地下,我想说下次请带上我
omph
2015-08-24 10:49:14 +08:00
好无聊啊,你要说写了个程序能把妹子 P 成 5000 种样子,那就惊世骇俗了
ifishman
2015-08-24 10:56:41 +08:00
为什么不先扒图片链接,再根据队列多线程下载,这样不就能把链接分享给我了吗
niushifan
2015-08-24 11:00:32 +08:00
还以为有照片呢
liuxu
2015-08-24 11:02:08 +08:00
@loading
@a308057848
学习学习,哈哈
liuxu
2015-08-24 11:03:07 +08:00
@omph 处理图片么,倒是用过 pythonmagick 转换过图片。。
liuxu
2015-08-24 11:03:30 +08:00
@ifishman 好方法,周末有时间我再写一个
liuxu
2015-08-24 11:04:19 +08:00
@niushifan 学习 python 用的,哈哈
anthonylimhc
2015-08-24 11:09:34 +08:00
WindowsError: [Error 3] The system cannot find the path specified: '/tmp/vnshen_so/'
我在 win8 上跑,手动创建了 /tmp 文件夹就行了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/215479

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX