刚学爬虫,今天爬豆瓣相册被 403 了?

2016-04-02 16:09:31 +08:00

demomaster

思路是先获取每一页相册中的图片的 url,再分别请求这些 url,然后在得到的 html 中筛选原图的 url,保存到本地.(对应在豆瓣里的操作就是点击缩略图,查看大图),第一步的 url 是都得到了,在第二步时只有前 5 个能返回 200,后面的都被 403 了.设置的延时是 5 秒,想不通.

3896 次点击

所在节点

5 条回复

myleon

2016-04-02 16:41:58 +08:00

User Agent 设置了吗

demomaster

2016-04-02 16:48:03 +08:00

@myleon 设置了

skydiver

2016-04-02 16:50:34 +08:00

referer 设置了么

demomaster

2016-04-02 17:12:54 +08:00

@skydiver referer 没有,刚查了下,这个是要设成从哪里跳来这的那条 url 吗?

demomaster

2016-04-02 17:34:05 +08:00

解决了,正则有问题(逃

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.