40 行代码搞定 v2ph 爬虫

2022-09-11 09:15:27 +08:00
 automation2022

上周看到有人在论坛问爬虫懒加载的问题,正好也有朋友在做这个爬虫练习项目, 分享一下,仅供参考,欢迎交流爬虫技术和场景

使用网页自动化的方式,而且使用的是用户浏览器,不易被反扒监测。 数据量不大的话,也无需所分布式,是一个很好的选择哈。

https://github.com/ReaganScott/v2ph

3731 次点击
所在节点    Python
10 条回复
i8k
2022-09-11 12:58:25 +08:00
没有把图片按文章目录分类啊
automation2022
2022-09-11 13:00:30 +08:00
@i8k 嗯,这个就比较简单了,拿到 album 的名字,在 picture 下建子目录就可以的
i8k
2022-09-11 13:03:36 +08:00
@automation2022 好,我自己补一下
websql
2022-09-11 15:48:16 +08:00
1 、要用 ip 池子,不然很容易被网站屏蔽了爬虫 IP
2 、图片下载失败后,删除本地文件,重新下载图片
Puteulanus
2022-09-11 16:01:27 +08:00
练习项目更建议手工爬,操作浏览器看起来简单,练到的东西也就少了
automation2022
2022-09-11 16:06:43 +08:00
@websql 嗯,说的对。
数据量不大的话,搞个代理,自动切换代理服务器, 不过没有做这方面的测试
Dart
2022-09-13 11:24:27 +08:00
厉害!学习到了不少东西
cy1027
2022-09-13 16:17:58 +08:00
selenium 换代理太麻烦了,我反正只会删除实例再创建一个然后改代理,真想学还是建议研究研究逆向什么的,模拟器还是不太够用
automation2022
2022-09-14 15:46:25 +08:00
@Dart 欢迎多交流
Dart
2022-09-14 21:25:40 +08:00
不过 v2ph.com 不行啊,感觉很烂还不如其他图片站,不知道有什么好爬的……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/879230

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX