php 的爬虫经验分享

2016-11-30 12:08:16 +08:00
 gouchaoer

最好的语言 PHP + 最好的前端测试框架 Selenium = 最好的爬虫(上)

入职冰鉴科技做爬虫开发已经半年多了,陆续开发维护了几个爬虫以后终于在 web 端爬虫这一块有了登堂入室的感觉。中间踩了许多坑,也对爬虫的许多细节有了自己的认识,所以今天希望能分享一些爬虫经验。虽然爬虫的很多东西不好说太细,因为说太细了别人马上有针对性的反爬虫了,而且很多技巧业界没用通用的解决方案(别人就算做出来了也不太愿意分享),都是我自己慢慢摸索出来的。但是我认为适当的业界 /友商之间的技术交流是必要的,不能闭门造车,我也渴望能和业界 /友商有更多私下的深入交流,大家多切磋才能进步嘛。最近我在研究 app 反编译爬虫相关的,所以对这块特别感兴趣。个人博客: qsalg.com

为什么是 PHP

其实就目前业界来说, python 下的爬虫轮子是最多的,我厂大多数同学都用 python 搞爬虫。我由于原来搞 web 后端用 PHP 比较多,对 PHP 下的生态和第三方库啥的如数家珍,厂里对使用的语言也不做强制要求,所以我就用最拿手的 PHP 开搞了。有同学可能会觉得 PHP 下爬虫轮子似乎不多,甚至有部分做惯了 PHP 后台的同学在需要完成爬虫任务时也拿起了 python ,难道 PHP 就不适合搞爬虫么?我认为恰恰相反, PHP 在 web 领域积累了大量成熟的第三方库,而且其强大的内容处理能力使之在需要琐碎处理的爬虫任务中如鱼得水。爬虫从运行时间上大致可以分为两种: 1 、实时的爬虫:一个请求来了我就开一个爬虫去爬取结果,一般情况下这种爬虫直接对外提供 API ; 2 、长期爬虫:这种爬虫一般会一直运行或者定期运行,把数据更新入库。一般来说这 2 种爬虫都需要比较频繁的维护更新, PHP 作为一门部署简单的脚本语言,可以实施热更新爬虫代码,非常方便。

使用第三方库

用 PHP 搞爬虫请利用好 composer 下的第三方库。 PHP 在 web 领域积累了大量成熟的第三方库,基本上你想得到的库都能在 github 上都能找到,如果你不用第三方库的话,那么你就等于放弃了 PHP 在 web 领域的巨大优势。爬虫相关的 PHP 第三方库我用的比较多的有:

1 、 Guzzle :功能很完善的 httpclient ,带异步并发功能,别的脚本语言找不到这么好的 httpclient

2 、 Goutte :对 symfony 的 dom-crawler 和 css-selector 的简单封装,你也可以直接用 symfony 的 css-selector 来抽取 html 的 dom 元素

3 、 symfony/process : symfony 出品的 php 开进程的库(封装的 proc_open ),兼容 windows ,要知道 pcntl 扩展不支持 windows 的

4 、 php-webdriver : Facebook 官方维护的 selenium 的 php 客户端

前段时间有一个《我用爬虫一天时间“偷了”知乎一百万用户,只为证明 PHP 是世界上最好的语言》,这个 repo 很受关注也一直在维护。我也研究了一下他的代码,质量很高,但是有一个缺点就是没有使用现有的第三方库而选择自己封装。我们应该把精力花在爬虫业务上而不是去从新造轮子,我平时直接无脑的使用现有的 composer 下的各种第三方库。我从今年 4 月份入职到现在 8 个月时间只写了 3 个爬虫(除了爬虫业务外,基于 redis 的分布式爬虫调度、单机多爬虫并发、报警+监控+参数控制、 selenium 多浏览器匹配+特性定制、代理策略定制 and so on )一套下来,所有代码都加起来只有 6000 行 PHP 代码。已经有现成的成熟稳定的第三方库不用,自己造轮子是得不偿失的。

多线程、多进程和异步

爬虫不能不说到并发,爬虫作为一个 IO 密集型而不是 CPU 密集型的任务,一个好的并发的爬虫应该满足: 1 、尽量可能高的下载带宽(下载带宽越高,爬的数据越多); 2 、尽可能小的 CPU 消耗和尽可能小的内存消耗。 多线程似乎是实现并发的不错的方式,经常有人说“ PHP 没有多线程”让广大 PHPer 直不起腰。作为 web 后端的时候 PHP 没法使用多线程,但是作为命令行运行的话 PHP 是支持多线程的。我们知道 PHP 分为线程安全( ZTS )和非线程安全版本( NTS ),后者其实是为了兼容 win 下 IIS 的 ISAPI ,这也就逼着 PHP 下的扩展基本上都提供的线程安全和非线程安全版本。也就是说从理论上来说命令行的 PHP 多线程是真的多线程,没有像 py 或者 ruby 那样的全局锁(实际上同一时刻只有一个线程在跑),但是实际上 PHP 命令行多线程不太稳定(毕竟它的多线程不是为 php-cli 设计的),所以我建议命令行应用还是使用多进程来做并发。 而异步也是实现并发的重要方法,爬虫需要并发的大多数情况是我想是同时去爬多个 url ,这种情况无须使用多进程 /多线程,直接在单进程中使用异步就可以了。比如 PHP 的 Guzzle 异步支持非常好用, Guzzle 默认异步是包装的 curl 的 curl_multi 的几个函数来做的,如果你想用性能更好的异步事件库可以设置 Guzzle 的 adapter 为 react-guzzle-psr7 (当然了你得安装 Event 之类的异步 pecl 扩展)。我个人试用下来觉得 Guzzle 默认的异步就够用了,单进程并发几十上百的 http 请求跑满小水管那是不成问题的, cpu 和内存消耗还很小。总之,把 php 的多进程和异步合起来用,实现良好的并发不是问题。

关于爬虫框架

开箱即用封装好的爬虫框架不是银弹。我一开始也研究了 java 和 py 下的一些比较著名的框架,企图先把这些框架学会然后把自己的爬虫任务整合进去,后来发现这么做很困难。诚然用爬虫框架基本上改两行就可以跑起来了,对简单的爬虫任务来说很不错。但是用别人封装好的框架会导致爬虫的定制性变差(要知道爬虫是需要灵活处理各种情况的),而我们知道爬虫的本质就是开着 httpclient 取回 html 然后 dom 抽取数据就完了(并发的话再加个多进程管理),就这么简单的任务为了尽可能满足所有人需要被封装成了一个复杂系统的框架,并不一定适合所有的情况。有一次 V2EX 上也有人出来质疑说我直接用 requests 也很简单啊, scrapy 的优势在哪里呢?我的理解是爬虫框架的优势就在于把爬虫的并发调度都做了,而我们直接单进程来写爬虫的话只能是一个单进程爬虫没有并发调度。其实爬虫的多进程并发调度没那么复杂,也不需要搞太复杂,我说说我的 php 爬虫是怎么做并发调度的( python 下一回事)。

爬虫多进程调度

我的 PHP 爬虫多进程调度比较简单粗暴,爬虫分为管理爬虫进程的 Master 进程和负责具体爬取业务的 worker 进程,而 redis 负责对爬虫进行控制以及显示爬虫的状态。

比如我有一个爬取 A 站点的爬虫任务,我开发好爬虫 Worker A 以后,我可以在 redis 中设置在服务器 Node1 上我开 2 个 Worker A 来爬,而 Node1 上的 master1 进程会定期去 redis 中读取控制参数,如果发现 Node1 上的 Worker A 进程不足 2 个的话就会新开 Worker A 进程补充。当然了,控制参数需要包含哪些你可以自己定制,比如我就定制了每个节点的 Worker 上限、使用的代理策略、是否禁止加载图片、浏览器特性定制等等。 Master 进程新开 Worker 进程有 2 种方式,一种是通过类 exec (比如在 Master 进程中 proc_open(‘ php Worker.php balabala ’, $descriptorspec, $pipes)这样)调用来开一个新的命令行 php 的 Worker 进程,另外就是通过 fork 机制来做。我采用了类 exec 调用的方法(其实是 symfony/process 库,它封装的 proc_open 函数来开的进程)来开 Worker 进程(如果要传命令行参数给 Worker 进程注意使用 base64 编码一下,因为命令行可能会过滤某些参数),这么做的好处就是解耦。需要注意的是,现在 Worker 进程都是 Master 进程的子进程,所以 Master 进程退出的话所有 Worker 进程也会退出,所以 Master 进程注意异常的 catch ,尤其是 redis 、数据库和别的有网络 io 的地方。如果你希望 Worker 进程 damonize 的话请按这篇文章的方法来( php 下也是一样的,不过不兼容 windows )。 我不建议 Master 进程通过 IPC 机制对 Worker 进程进行控制,因为这么做一下子就让 Master 进程和 Worker 进程耦合起来了, Master 进程应该只是简单的负责开 Worker 进程而已。对 Worker 进程的控制可以通过 Redis 来完成,也就是说 Worker 进程每隔一段时间(可以是完成了一次 http 请求,或者每隔几秒)可以去 Redis 读一次控制参数(如果需要的话,也可以到汇报一下自己状态,参数比较多的话用好 redis 的 pipeline ),在实践中这种方法工作的很好。 我的 PHP 爬虫中都采用了这个简单粗暴的方案,我认为它的好处有 4 个:

1 、支持分布式且依赖简单,参数控制+状态汇报直接通过单一的 redis 节点。我推荐你用一个好的 redis 的 GUI 工具来管理 redis , redis 的 5 种数据结构用来做爬虫参数控制+爬虫状态显示非常方便

2 、 Master 进程和 Worker 进程解耦,而且可以解决爬虫较多发生的内存泄漏问题( Worker 进程跑完直接退出),也可以热更新代码

3 、实时爬虫可以通过 Master 进程抢占 push 到 redis list 中的请求来做,而长期任务的爬虫在 Worker 进程意外退出后 Master 进程立刻补充,能适应各种爬虫任务

4 、开发爬虫只用去写 Worker 进程就 ok 了,开发方便,不用关心调度问题

缺点当然就是这一套机制都需要你自己写,高度可定制性的代价就是自己动手。

总结

把我的 PHP 下爬虫经验的几个方面拿出来讲了一下,由于篇幅有限 Selenium 相关的经验就留到下次再说了。

以上

28523 次点击
所在节点    PHP
75 条回复
nsxuan
2016-11-30 12:21:53 +08:00
好文,赞
php71
2016-11-30 12:39:08 +08:00
我就看看我不说话
nigelvon
2016-11-30 12:39:38 +08:00
不错不错,赞
willhunger
2016-11-30 12:50:17 +08:00
我就看看我不说话
willhunger
2016-11-30 12:50:48 +08:00
表示之前是用的 PHPquery ,我还以为没有 php 的爬虫框架了呢
jugelizi
2016-11-30 13:03:16 +08:00
再牛逼的框架 别人出个铁道部的验证码一样干掉你
exalex
2016-11-30 13:15:03 +08:00
大神文章先马后看
gouchaoer
2016-11-30 13:19:42 +08:00
@jugelizi 我想说的就是这个,比如处理验证码的情况,框架里面要处理也可以不过扩展比较麻烦。。。如果你不用框架,自己检测验证码,简单的用现有的大码工具,复杂的上打码平台,这样就容易很多了。。。
gouchaoer
2016-11-30 13:21:27 +08:00
@willhunger dom 选择器 php 有好几个库,捡顺手的就完了。。。其实 selenium 的 dom 选择器也是非常成熟的
helloccav
2016-11-30 13:28:39 +08:00
一直觉得 dom 选择器很难用,不如直接用正则提取内容方法
gouchaoer
2016-11-30 13:38:53 +08:00
@helloccav 其实 html 的元素是为前端准备的,前端用 jquery 之类的 dom 选择器那爬虫用同一套工具肯定是最优的。。。正则我更多的是用在拿到元素文本内容后提取关键字啥的。。。而且在比较复杂的爬虫里面,光是不同的 dom 选择操作就几十上百个,每天还得盯着人家 html 变化没,变了赶紧更新代码,用正则会绝望的
scnace
2016-11-30 13:42:08 +08:00
我明明是来看 selenium 和 phantomjs 的。。。
nilai
2016-11-30 13:44:29 +08:00
其实应该来份 DEMO 也不错哦。
gouchaoer
2016-11-30 13:48:12 +08:00
@scnace selenium 和 phantomjs 打算下次分享,里面有的几个坑很有趣的(其中有一个坑让我差点不干了),这块我透漏一下我 i7 的 cpu 能跑 100 个 phantomjs 进程(长期稳定)
gouchaoer
2016-11-30 13:51:08 +08:00
@nilai 贴代码多没意思啊,这个东西也不复杂我也就写了个基类 1k 行也没啥技术含量,简单粗暴的
scnace
2016-11-30 14:08:34 +08:00
@gouchaoer 爬虫这块其实是不限语言的 因为不同语言的实现原理都类似 从开始实习到现在也一直在搞爬虫的事 `phantomjs`这块我是调命令行实现的 但是解析动态页面(AJAX 生成的 URL 这些) 还是不太给力 所以很期待楼主的分享啊 记得更新了圈下我啊 233
barood
2016-11-30 14:31:39 +08:00
谢谢分享
vus520
2016-11-30 14:37:32 +08:00
分布式的轮子有没有开源出来?
mahone3297
2016-11-30 14:46:24 +08:00
分享不错
因为你说了,用第三方库,能否分享几个好的库?比如 dom 的话,哪个库?其他呢?
changwei
2016-11-30 15:33:18 +08:00
楼主你好,看了你的文章收获很多,请问能否分享一下你的 github ?

我也是 phper ,但是由于我开始也和你说的很多人一样以为 php 的多线程能力很弱,虽然知道 php 用 pthreads 扩展可以实现多线程,但是编译和安装扩展的时候出现了各种坑,因此只好转 python 了。

关于 php 的 nts 和 zts 我有一个疑问,就是你说的 nts 是为了兼容 iis 下的 ISAPI ,那么请问为什么 linux 下的 php 版本也区分 nts 和 zts 呢?还有就是我看 python 和 java 里面仅仅是在模块级别上区分是否为线程安全版本(比如说 py 的 queue 队列这种数据结构就是线程安全版本,还有 java 下的 Vector 和 arraylist ),为什么 php 是整个版本就开始做区分呢?

还有关于全局锁的问题,我发现我 python 写的爬虫如果开 10 个线程,那么命令行输出就是一次性输出 10 条抓取日志然后突然停顿 0.5s 左右,请问这 0.5s 是不是就是你说的由于全局锁的关系,导致它内部在做线程调度从而产生这 0.5s 的卡顿时间?

谢谢楼主的分享。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/324309

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX