需要网页加载了图片后才能通过链接打开爬取怎么解决呢?

2022-09-05 21:59:50 +08:00
 bananahotell

业余爱好者,学 python 爬图片,看到美女图片网站 v2ph.com 练练手,但发现爬下来的图片很小、没内容,但是链接又是对的,最后才发现,即使把链接复制到浏览器里也无法打开,而是要打开原网页,一直下拉,把图片都加载出来了之后,才能通过链接打开图片。 所以,请教各位大佬,这样的情况怎么解决?

3282 次点击
所在节点    Python
29 条回复
fbichijing
2022-09-06 09:32:07 +08:00
刚试了一下,图片链接的话 data-src ,爬取的时候加个 referer 就不会 403
codingBug
2022-09-06 10:05:13 +08:00
有时间,我也爬一爬
zoofy
2022-09-06 11:43:59 +08:00
加 referer headers 就解决了
bananahotell
2022-09-07 20:05:09 +08:00
@foam
@fumichael
@fbichijing
@zoofy 果然,加个 referer 解决问题,感谢各位
bananahotell
2022-09-07 20:23:38 +08:00
不对,乌龙了,加了 referer 也不行
Dart
2022-09-09 03:10:57 +08:00
楼主怎么样了,我也在抓 v2ph , 能交流下吗?
Dart
2022-09-09 17:21:06 +08:00
bananahotell
2022-09-09 18:56:20 +08:00
@Dart 没成功,我准备把崔庆才写的那本网络爬虫书看了再来
Joeith
2022-09-10 20:53:36 +08:00
直接用 puppeteer 解决一切问题。 反正小项目,不用考虑效率的问题。用时效换安全

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/877923

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX