刚学爬虫,今天爬豆瓣相册被 403 了?

2016-04-02 16:09:31 +08:00
 demomaster

思路是先获取每一页相册中的图片的 url,再分别请求这些 url,然后在得到的 html 中筛选原图的 url,保存到本地.(对应在豆瓣里的操作就是点击缩略图,查看大图),第一步的 url 是都得到了,在第二步时只有前 5 个能返回 200,后面的都被 403 了.设置的延时是 5 秒,想不通.

3431 次点击
所在节点    Python
5 条回复
myleon
2016-04-02 16:41:58 +08:00
User Agent 设置了吗
demomaster
2016-04-02 16:48:03 +08:00
@myleon 设置了
skydiver
2016-04-02 16:50:34 +08:00
referer 设置了么
demomaster
2016-04-02 17:12:54 +08:00
@skydiver referer 没有,刚查了下,这个是要设成从哪里跳来这的那条 url 吗?
demomaster
2016-04-02 17:34:05 +08:00
解决了,正则有问题(逃

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/268125

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX