40 行代码搞定 v2ph 爬虫

2022 年 9 月 11 日

automation2022

上周看到有人在论坛问爬虫懒加载的问题，正好也有朋友在做这个爬虫练习项目，分享一下，仅供参考，欢迎交流爬虫技术和场景

使用网页自动化的方式，而且使用的是用户浏览器，不易被反扒监测。数据量不大的话，也无需所分布式，是一个很好的选择哈。

4991 次点击

所在节点

10 条回复

i8k

2022 年 9 月 11 日

没有把图片按文章目录分类啊

automation2022

2022 年 9 月 11 日

@i8k 嗯，这个就比较简单了，拿到 album 的名字，在 picture 下建子目录就可以的

i8k

2022 年 9 月 11 日

@automation2022 好，我自己补一下

websql

2022 年 9 月 11 日

1 、要用 ip 池子，不然很容易被网站屏蔽了爬虫 IP
2 、图片下载失败后，删除本地文件，重新下载图片

Puteulanus

2022 年 9 月 11 日

练习项目更建议手工爬，操作浏览器看起来简单，练到的东西也就少了

automation2022

2022 年 9 月 11 日

@websql 嗯，说的对。
数据量不大的话，搞个代理，自动切换代理服务器，不过没有做这方面的测试

Dart

2022 年 9 月 13 日

厉害！学习到了不少东西

cy1027

2022 年 9 月 13 日

selenium 换代理太麻烦了，我反正只会删除实例再创建一个然后改代理，真想学还是建议研究研究逆向什么的，模拟器还是不太够用

automation2022

2022 年 9 月 14 日

@Dart 欢迎多交流

Dart

2022 年 9 月 14 日

不过 v2ph.com 不行啊，感觉很烂还不如其他图片站，不知道有什么好爬的……

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.