深夜，我用 Python 爬取了整个斗图网站，不服来斗

2018 年 9 月 16 日

yuiop

QQ、微信斗图总是斗不过，索性直接来爬斗图网，我有整个网站的图，不服来斗。

废话不多说，选取的网站为斗图啦： http://www.doutula.com/

详细全文：
https://mp.weixin.qq.com/s?__biz=MzI2OTQxMTM4OQ==&mid=2247487106&idx=1&sn=2ecaa7cbfdaacdacbabe2aa50f614ab0&chksm=eae1fbd0dd9672c6aa9d864ca1066a304aef945ff836eeba8bd6404f7068b90222d611a8d1d8&token=1550086199&lang=zh_CN#rd

5559 次点击

所在节点

Python

15 条回复

Alpha

2018 年 9 月 16 日

这样可以保存图片？

Alpha

2018 年 9 月 16 日

for one in totals:
img = one.find('img')
try:
sub_url = img.get('src')
except:
pass
finally:
urls = 'http:' + sub_url
try:
self.get_img(urls)
except:
pass

这一段错了，你这样的话就变成所有的 url 无论有没有没有 http: 你都加上 http:

liuguang

2018 年 9 月 16 日

这个站好像是 laravel 做的。。。。

SimbaPeng

2018 年 9 月 17 日

这你也想搞个大新闻。。。

另外你这代码质量有待提高

Les1ie

2018 年 9 月 17 日

想起来去年我也爬过这个网站的图片 hmmmmm 上面的图讲真有趣

Les1ie

2018 年 9 月 17 日

https://i.loli.net/2018/09/17/5b9ea4c8e8eba.png

另外我还真的不服 :)

Eds1995

2018 年 9 月 17 日

其实可以用深度学习生成表情包的。。。。。

brave256

2018 年 9 月 17 日

30 页也能说整站啊。。我记得这网站有好几百页图，这网站有反爬，我试过用多线程爬到 800 多张就会禁止访问。

tzhhahaha

2018 年 9 月 17 日

哈哈哈哈，我刚入门了 4 个月 python，爬了煎蛋跟表情包网站，蛮有意思的。
另外其实煎蛋妹子图质量很高！（新手的第一个 star 求点击）
https://github.com/TangZhongham/Python-Crawler

vazo

2018 年 9 月 17 日

aino

2018 年 9 月 17 日

去年用 java 写过一遍，现在还能用

alwayshere

2018 年 9 月 17 日

V2 的水平真的令人堪忧，爬个这么简单的图片站居然也都能炫耀一下。。。。。。

gymmcome

2018 年 9 月 17 日

@tzhhahaha 可以尝试用抓包工具获取煎蛋 APP 的接口，都是 json 数据，更加方便。

tzhhahaha

2018 年 9 月 18 日

@gymmcome 哈哈谢谢～我试一下，又能学到东西了

CLANNADHH

2018 年 9 月 29 日

1000+页已经爬完了。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/489842

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.