请各位大佬,如何成为一个合格的爬虫工程师?

2019-01-28 22:20:24 +08:00
 keyakizaka46

先说一下小弟背景:非科班出身,刚接触用 Pyhton 写爬虫两个月左右。 最近接到的任务是爬取淘宝商品列表上的信息,被各种反爬搞的焦头烂额,对于前端知识极度匮乏的我,终于体会到只有后端知识是远远不能成为一个合格的爬虫工程师,所以在此向各位大佬请教一条前端知识的学习路线。首先最起码能分析出对方的反爬手段,接着就是如何反反爬。老弟我在此先感谢大家的献言献计。

5598 次点击
所在节点    Python
38 条回复
lynskylate
2019-01-28 22:30:20 +08:00
爬虫很难有好前途,天花板太低,干的活太杂,变化太频繁,很难有积累。一般公司爬虫框架都搭好了,你也很难去做架构,天天就是网站一遍去写解析脚本了。后端天天 crud 离业务好歹近,熟练了可以做业务方面的架构工作。
总之,爬虫初级可以做,熟练后以后建议转后端或者转风控。
lynskylate
2019-01-28 22:32:48 +08:00
另外爬虫和前端关系不大,更重要的是分析反爬策略,破解网络接口。
littleylv
2019-01-28 22:48:33 +08:00
歪个楼,我好像没听过“爬虫工程师”这个职位
noli
2019-01-29 00:08:12 +08:00
第一步,先忘掉爬虫工程师这个名词。第二步,成为一个软件工程师。
reus
2019-01-29 08:34:30 +08:00
低端工作,大佬才不会拿这个当工作
showecho
2019-01-29 08:48:19 +08:00
爬虫工程师?这种职位不是应该遮掩一下 至少换个名字吗?
keyakizaka46
2019-01-29 09:07:46 +08:00
@showecho
@littleylv
@noli 说得对,应更正为数据采集才对。
aaa5838769
2019-01-29 09:28:19 +08:00
我觉得这个学会就行了- -,没必要深入吧- -
supervipcard
2019-01-29 09:44:12 +08:00
三个阶段(针对反爬)
1.伪造 Headers 发请求然后解析,会处理 Cookie
2.解决账号和 IP 封禁,简单的验证码,简单的接口参数加密
3.破解各种行为式验证码和混淆 JS
supervipcard
2019-01-29 09:45:55 +08:00
至于你说的前端知识,个人认为没必要刻意去学,懂交互,HTML 会解析,能看懂并调试 JS 就差不多了
CharlieBrown
2019-01-29 10:15:45 +08:00
能看懂并调试 JS
@supervipcard
这就是很大一部分人需要学的前端
zhangslob669
2019-01-29 10:26:34 +08:00
一年爬虫,准备转大数据
locoz
2019-01-29 10:37:29 +08:00
爬虫是需要啥东西都了解一下的,不是单单学点前端知识就能解决问题,如果单纯的是为了破解的话应该学的是逆向知识,举两个常见的例子吧:
1、轻度混淆、没有用 eval 什么的加密的 JS 代码

这种级别的代码根本不需要什么前端知识,会用浏览器开发者工具调试的人随便就能找出需要的东西是在哪生成的,别人调用的什么库直接上 google 查就好了,一些关键词( md5、sha256、aes...)也很容易辨认,一眼就能看出是干嘛的,再打个断点就知道具体参数是什么了,所以跟前端知识没啥关系。
2、高度混淆 /加密+做了各种反调试检测的 JS 代码

这种代码你让做前端开发的人来看都看不懂,对于这种 JS 代码来说,普通的前端知识根本不重要,需要的是用一些更底层的东西来恢复出这一坨屎一样的代码它原来的样子,而且一些反调试的操作根本不会是正常的前端开发会用上的,所以跟前端知识依然没啥关系。

然后一些其他领域的东西也能作为你的工具,像你爬淘宝的话如果搞不定属于上面提到的第二种 JS 代码的 ua 参数生成,你还可以使用测试领域的自动化测试来做,如果觉得 PC 上的自动化测试对于当前需求的性价比不高,想要速度更快一些、资源占用更少一些、更稳定一些的,你还能在自动化测试的基础上加上安全领域的中间人攻击甚至更黑科技一点的操作,所以方法的多样性非常重要。(当然我遇到过的绝大多数只会用自动化测试工具爬的人水平也不咋样,逆向还是得会的)
locoz
2019-01-29 10:37:59 +08:00
@locoz #13 补上第二种代码的图
x86
2019-01-29 10:38:58 +08:00
所有页面...所见即所得...
TimePPT
2019-01-29 11:01:20 +08:00
推荐这篇《爬虫需谨慎!!!那些你不知道的爬虫反爬虫套路》
http://dataunion.org/29654.html
里面有提到爬虫和反爬的攻防对决,大概是能看到高等级玩家是怎么玩的了
Johnson66
2019-01-29 11:08:22 +08:00
学好 JS
keyakizaka46
2019-01-29 13:33:07 +08:00
@locoz 感谢
houzhimeng
2019-01-29 13:54:32 +08:00
爬虫只能算副职业
xiaozizayang
2019-01-29 14:02:30 +08:00
爬虫确实天花板比较低,言归正传,自己以前写的一篇文章,希望对你有帮助 [博文链接]( https://www.howie6879.cn/post/2019/02-talk-about-python-spider/)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/531392

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX