yande.re 图站爬虫一枚

2015-06-20 01:53:58 +08:00
 wudaown

有朋友想收集yande.re里的图片
于是现学撸了一个爬虫出来
大家来拍吧
https://github.com/wudaown/yandeDL

未满18岁慎用
14516 次点击
所在节点    程序员
22 条回复
zonghua
2015-06-20 02:20:39 +08:00
python做爬虫有什么加成
Imyssed
2015-06-20 03:19:48 +08:00
其实我比较好奇Y站和K站是不是一个系统啊...好像的说
wudaown
2015-06-20 03:45:58 +08:00
貌似是的.. y站以前不叫Y站.. 换过名字了
wudaown
2015-06-20 03:47:54 +08:00
@Imyssed 去K站看了一眼.. 结构都差不多 只要替换几个地方就变成K站爬虫了... 233
yeah2109
2015-06-20 04:12:49 +08:00
输入关键词以后没有进度提示吗?
yeah2109
2015-06-20 04:14:31 +08:00
@wudaown 那就在做个k站的吧233
看到提示了,好东西
yeah2109
2015-06-20 06:22:27 +08:00
我输入了一定的页数,下载了一段时间后
Traceback (most recent call last):
File "yandeDL.py", line 61, in <module>
main()
File "yandeDL.py", line 55, in main
MultiPageDownload()
File "yandeDL.py", line 27, in MultiPageDownload
coreDL(crawler.getSource(next_page_url))
File "yandeDL.py", line 14, in coreDL
crawler.getImg(dLink, filename_list)
File "/root/yandedl/crawler.py", line 123, in getImg
urllib.request.urlretrieve(x[2:-2], filename_list[count])
File "/usr/local/lib/python3.4/urllib/request.py", line 219, in urlretrieve
% (read, size), result)
urllib.error.ContentTooShortError: <urlopen error retrieval incomplete: got only 196325 out of 255091 bytes>
这么显示然后就停止了,是什么原因?
hansnow
2015-06-20 08:45:26 +08:00
问个和主题不相关的问题哈,楼主帖子里的红色框框是怎么输入的呢?
anthonyeef
2015-06-20 10:13:07 +08:00
@hansnow markdown自带的吧
wudaown
2015-06-20 13:35:24 +08:00
@yeah2109 你下载了多少页 用的那个tag? 我自己试试看
wudaown
2015-06-20 15:49:51 +08:00
shuzhiqian
2015-06-20 15:53:57 +08:00
iOS开发技术分享群:429196500 欢迎加入!
dlc
2015-06-20 20:24:37 +08:00
楼主, 为什么我安装完python3.4.0 后双击yandeDL.py打不开。
moenayuki
2015-06-20 21:27:30 +08:00
wudaown
2015-06-20 21:42:40 +08:00
@moenayuki 我刚才发现有API的.. 准备重写了
wudaown
2015-06-20 21:43:01 +08:00
@dlc 能多说一点么... 我在windows测试可以问题......
yeah2109
2015-06-21 09:38:46 +08:00
@wudaown 关键词 “thighhighs”或者“no-bra” 页数50
dlc
2015-06-21 10:12:43 +08:00
@wudaown 双击yandeDL.py一闪而过,在cmd用 python yandeDL.py 也打不开。
ghostxdy
2015-06-21 14:17:23 +08:00
我特的来回复一下,我收藏了
yeah2109
2015-06-21 15:21:51 +08:00
@dlc python3 不是python

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/199965

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX