深夜,我用 Python 爬取了整个斗图网站,不服来斗

2018-09-16 16:27:48 +08:00
 yuiop
QQ、微信斗图总是斗不过,索性直接来爬斗图网,我有整个网站的图,不服来斗。

废话不多说,选取的网站为斗图啦: http://www.doutula.com/

详细全文:
https://mp.weixin.qq.com/s?__biz=MzI2OTQxMTM4OQ==&mid=2247487106&idx=1&sn=2ecaa7cbfdaacdacbabe2aa50f614ab0&chksm=eae1fbd0dd9672c6aa9d864ca1066a304aef945ff836eeba8bd6404f7068b90222d611a8d1d8&token=1550086199&lang=zh_CN#rd
4892 次点击
所在节点    Python
15 条回复
Alpha
2018-09-16 21:02:38 +08:00
这样可以保存图片?
Alpha
2018-09-16 22:13:05 +08:00
for one in totals:
img = one.find('img')
try:
sub_url = img.get('src')
except:
pass
finally:
urls = 'http:' + sub_url
try:
self.get_img(urls)
except:
pass


这一段错了,你这样的话就变成所有的 url 无论有没有没有 http: 你都加上 http:
liuguang
2018-09-16 22:52:51 +08:00
这个站好像是 laravel 做的。。。。
SimbaPeng
2018-09-17 00:49:41 +08:00
这你也想搞个大新闻。。。

另外你这代码质量有待提高
Les1ie
2018-09-17 02:42:54 +08:00
想起来去年我也爬过这个网站的图片 hmmmmm 上面的图讲真有趣
Les1ie
2018-09-17 02:46:18 +08:00
Eds1995
2018-09-17 09:14:44 +08:00
其实可以用深度学习生成表情包的。。。。。
brave256
2018-09-17 09:17:50 +08:00
30 页也能说整站啊。。我记得这网站有好几百页图,这网站有反爬,我试过用多线程爬到 800 多张就会禁止访问。
tzhhahaha
2018-09-17 10:26:59 +08:00
哈哈哈哈,我刚入门了 4 个月 python,爬了煎蛋跟表情包网站,蛮有意思的。
另外其实煎蛋妹子图质量很高!(新手的第一个 star 求点击)
https://github.com/TangZhongham/Python-Crawler
vazo
2018-09-17 10:56:33 +08:00
aino
2018-09-17 13:39:06 +08:00
去年用 java 写过一遍,现在还能用
alwayshere
2018-09-17 13:46:29 +08:00
V2 的水平真的令人堪忧,爬个这么简单的图片站居然也都能炫耀一下。。。。。。
gymmcome
2018-09-17 20:46:04 +08:00
@tzhhahaha 可以尝试用抓包工具获取煎蛋 APP 的接口,都是 json 数据,更加方便。
tzhhahaha
2018-09-18 18:00:05 +08:00
@gymmcome 哈哈谢谢~我试一下,又能学到东西了
CLANNADHH
2018-09-29 14:58:59 +08:00
1000+页已经爬完了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/489842

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX