高数线代概率论, 数据结构与算法, 计算机组成原理, 操作系统, 计算机网络, 数据库概论, 学校里的基础课每门都有用, 但是用在哪一时间还真说不大出来
如果前期, 找个教程从头过一遍知道编程什么样子才是正理
中期就恶补一下上面提到的专业课, 不要求满分什么的, 起码知道是个什么, 学会如何读懂文档和问问题, 搜问题(从 Python 官方文档开始最好, 然后善用 Google / stackoverflow), 大致了解下那些范式或者方法论的东西, 比如那几个原则什么的
像你已经工作几年的话, 基本上就是读源码参与开源项目, 多点实战经验了吧, 锻炼你说的这几个能力的书读过基本, 感觉对我并没有太大收获... 反而上学时候的基础书受益很久, 编程思维的成熟和环境关系很大的, 平时如果工作总是按部就班地写写业务代码, 就只能下班空闲时间自学了, 多个圈子一块讨论是个不错的选择
至于你提到的微积分, 高数或者线性代数, 感觉平时也就处理数据分析的时候用到过, 金融各种曲线
反而概率与统计这个方向挺常见的... 尤其是现在很多人工智能的东西基础课都离不开这几个数学知识
Just Do "IT"
cdp 用的好的话, 直接拿到图片二进制数据, 解码出来去识别就行了吧, 又截图又切图的不费劲么... 甚至上面说的也没毛病, 拿到同样的请求(对 cdp 来说拿到请求体其实就能拿到流量了, 不该多此一举), 包括 cookie 什么的, 再次请求拿到的图片是同一个, 二次请求也可以
简单地说, 就是 chrome devtools protocol 了解一下, 开调试模式, 挂 websocket 截流量, 识别图片的验证码, 然后注入 js 来填写
不建议非测试工程师走 selenium, 个人意见...
目前的 cdp 的 Python 轮子因为不像 nodejs 那么适配 chrome 里的以事件导向的异步, 没有太多好轮子, pyppeteer 的协程差不多能实现, 不过我用的时候死在下载 chronium 上了... 就自己造了个简单同步的轮子(就是 block 主线程去等事件...)
3.7 和 3.6 以前的这个依赖不一样了, 既然都选择 Ubuntu 了, 使用
apt-get install python3.7-dev
就可以了
我给阿里云机器升级的 Ubuntu 18 用的这个方法, 反正 python3-dev 是不够用的
之前提的 shebang 的 issue, 好像一天就 fix... 真的好使
就是现在还有一个 feature request, 希望 showExecutionMessage==false 的情况下, 知道代码执行完毕
主要使用场景就是全选结果做它用, 有 Message 的时候全选有冗余消息, 没有的话又不知道什么时候代码是执行完了...
就因为上面的问题, 用 chrome 多 tab 没法对同一个网站提高并发, 最后我是启动了多个 chrome user 才解开的, 求更好更优雅的操作 chrome 方式... cdp 爬虫还有很多小细节等待发现