DrissionPage 是我一个人开发了几年的开源项目，现在 GitHub 上获得 3.8K 星，gitee 上 3.5 星，并且获得了 gitee 的 GPV 项目。

项目地址：https://gitee.com/g1879/DrissionPage 项目文档：https://g1879.gitee.io/drissionpagedocs

✨️ 概述

DrissionPage 是一个基于 python 的网页自动化工具。

它既能控制浏览器，也能收发数据包，还能把两者合而为一。

可兼顾浏览器自动化的便利性和 requests 的高效率。

它功能强大，内置无数人性化设计和便捷功能。

它的语法简洁而优雅，代码量少，对新手友好。

🎇 强大的自研内核

本库采用全自研的内核，内置很多实用功能，对常用功能作了整合和优化，对比 selenium ，有以下优点：

无 webdriver 特征
无需为不同版本的浏览器下载不同的驱动
运行速度更快
可以跨<iframe>查找元素，无需切入切出
把<iframe>看作普通元素，获取后可直接在其中查找元素，逻辑更清晰
可以同时操作浏览器中的多个标签页，即使标签页为非激活状态，无需切换
可以直接读取浏览器缓存来保存图片，无需用 GUI 点击另存
可以对整个网页截图，包括视口外的部分（ 90 以上版本浏览器支持）
可处理非open状态的 shadow-root

🎇 亮点功能

除了以上优点，本库还内置了无数人性化设计。

极简的语法规则。集成大量常用功能，代码更优雅
定位元素更加容易，功能更强大稳定
无处不在的等待和自动重试功能。使不稳定的网络变得易于控制，程序更稳定，编写更省心
提供强大的下载工具。操作浏览器时也能享受快捷可靠的下载功能
允许反复使用已经打开的浏览器。无须每次运行从头启动浏览器，调试超方便
使用 ini 文件保存常用配置，自动调用，提供便捷的设置，远离繁杂的配置项
内置 lxml 作为解析引擎，解析速度成几个数量级提升
使用 POM 模式封装，可直接用于测试，便于扩展
高度集成的便利功能，从每个细节中体现
还有很多细节，这里不一一列举，欢迎实际使用中体验：）

LeeReamond

103 天前

@g1879 虽然我不是做专业爬虫工作的，但你这个设计思路那不是往增加开发人员心智负担上使劲。。。因为业务的复杂度是无限的，网站为了给自动爬取增加不适会用各种办法，如果用异常上报的方式，开发人员只需要规定在某个时期内出现异常那么就重新开始流程这样。但是如果你要求把行为摸透，那只有两种可能，要不然就是网站行为太单纯，要不然就是极大增加开发人员心智负担，打上无数的状态控制。说到底最关键原因还是 alert 会阻塞用户代码，你没法用常规的流程控制手段去控制它。

再者我想知道 chromnium 实现精准控制状态，还要保证爬虫速度，这得多花多少经历来进行流程控制，另外还要假设对方网站不会频繁更新，否则你无法写一个大略的状态控制来增加鲁棒性。我很高兴你这个框架可以不用像 selenium 一样隔一段时间还要更换 chromedriver ，但是你现在提供的功能我代码迁移不过去

LeeReamond

103 天前

@g1879 起码 selenium 是这样处理的。我试着把在跑的几个脚本往你这个迁移，主要问题就是 alert 。目前的几个典型场景需要解决方案：

1.网站没有严格反爬，但也不会让自动脚本太舒服，alert 行为不是很可控，会随机弹。
2.在没有严格流程控制的情况下不让弹窗阻塞脚本（ selenium 的方案是在上级 catch 异常即可，所以我可以很粗糙地开发但仍然保持对流程的高度控制）。
3. 服务器对验证码的判断结果由 alert 返回。这个场景的问题是，验证码 cv 识别有成功率，handle 不能撤回只能依赖 timeout 和等待让代码健壮性变成依托。

以上这些场景都是 trycatch 非常合适的应用场景，你不知道流程会在脚本执行到哪步时触发异常行为，但是因为有异常直接 catch 所以整体流程依然可控。现在没有办法 catch 的原因是弹窗后整个被阻塞，即使尝试用 next_one 预埋 handler ，因为你是单线程同步脚本，又没有个回调，这该怎么控制。

安利一个自己的开源项目： DrissionPage

✨️ 概述

🎇 强大的自研内核

🎇 亮点功能