爬虫断网可以获取到异常吗？如果可以对应的异常是什么呢？

2018-06-19 15:53:58 +08:00

XuAaron

最近在学习爬虫，现在想要实现一个功能：爬取链接，如果断网，就将链接保存在本地文件。现在的问题是我不是很清楚这是否可行，如果可行应该捕获的哪一种异常呢？以下是 sm.ms 的图片外链，但图片好像不能直接显示。

https://i.loli.net/2018/06/19/5b28b479c3591.jpg

https://i.loli.net/2018/06/19/5b28b479bfbc0.jpg

这两张图片是一起的，只是截图截不了所有，所以分开截取了。

3311 次点击

所在节点

Python

12 条回复

soho176

2018-06-19 16:13:45 +08:00

fuliba?

XuAaron

2018-06-19 16:17:21 +08:00

@soho176 是的，感觉爬图片是学爬虫的先行动力。

d0m2o08

2018-06-19 16:35:07 +08:00

try:
爬虫(url)
except:
记录 url 到本地文件(url)

XuAaron

2018-06-19 17:34:12 +08:00

@d0m2o08 这个我已经试过了，不行。提问中的图片就是已经 catch 了各种异常，但还是不起作用。

annielong

2018-06-19 17:58:31 +08:00

干嘛不分开，先把链接保存，然后统一进行下载，还有，loli 的图床联通网络竟然无法访问

chroming

2018-06-19 19:49:34 +08:00

你自己电脑上断网打个断点调试不就知道了

soho176

2018-06-19 20:20:02 +08:00

@XuAaron fuliba 这站竟然没有被和谐。。

aaronzjw

2018-06-19 20:24:43 +08:00

Timeout exception

Leigg

2018-06-19 22:46:03 +08:00

https://blog.csdn.net/sc_lilei/article/details/80702449

XuAaron

2018-06-20 09:01:11 +08:00

@soho176 和谐再找其他的嘛。

XuAaron

2018-06-20 09:02:05 +08:00

@annielong 我试了下，微博的图床可以直接显示，其他的都不行。

SayHeya

2018-06-20 12:50:09 +08:00

看具体是什么异常，超时还是请求返回有问题

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/464118

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.