爬虫断网可以获取到异常吗?如果可以对应的异常是什么呢?

2018-06-19 15:53:58 +08:00
 XuAaron

最近在学习爬虫,现在想要实现一个功能:爬取链接,如果断网,就将链接保存在本地文件。现在的问题是我不是很清楚这是否可行,如果可行应该捕获的哪一种异常呢? 以下是 sm.ms 的图片外链,但图片好像不能直接显示。

https://i.loli.net/2018/06/19/5b28b479c3591.jpg

https://i.loli.net/2018/06/19/5b28b479bfbc0.jpg

这两张图片是一起的,只是截图截不了所有,所以分开截取了。

3311 次点击
所在节点    Python
12 条回复
soho176
2018-06-19 16:13:45 +08:00
fuliba?
XuAaron
2018-06-19 16:17:21 +08:00
@soho176 是的,感觉爬图片是学爬虫的先行动力。
d0m2o08
2018-06-19 16:35:07 +08:00
try:
爬虫(url)
except:
记录 url 到本地文件(url)
XuAaron
2018-06-19 17:34:12 +08:00
@d0m2o08 这个我已经试过了,不行。提问中的图片就是已经 catch 了各种异常,但还是不起作用。
annielong
2018-06-19 17:58:31 +08:00
干嘛不分开,先把链接保存,然后统一进行下载,还有,loli 的图床联通网络竟然无法访问
chroming
2018-06-19 19:49:34 +08:00
你自己电脑上断网打个断点调试不就知道了
soho176
2018-06-19 20:20:02 +08:00
@XuAaron fuliba 这站 竟然没有被和谐。。
aaronzjw
2018-06-19 20:24:43 +08:00
Timeout exception
Leigg
2018-06-19 22:46:03 +08:00
XuAaron
2018-06-20 09:01:11 +08:00
@soho176 和谐再找其他的嘛。
XuAaron
2018-06-20 09:02:05 +08:00
@annielong 我试了下,微博的图床可以直接显示,其他的都不行。
SayHeya
2018-06-20 12:50:09 +08:00
看具体是什么异常,超时还是请求返回有问题

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/464118

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX