请问爬虫可以转什么方向？转岗所需要的工作经验如何获得？

NoOneNoBody

2023 年 12 月 16 日

爬虫确实风险很大，但爬虫技术则是一个长久技能
爬虫包含获取和分析，后者可以用到各种大数据方面(数据分析前置就是数据获取)，举例子 X 也要分析自家的所有推文
前者则可以走向网络方面，当然需要分布式方面技能，如果仅仅是单机爬虫爬取，就算做得很好也会被淹没，因为懂的人太多

aozhou

2023 年 12 月 16 日

@evil0harry 日常不做这些工作的话，影响转岗的时候面试么？还是说自己业余做一些也行

aozhou

2023 年 12 月 16 日

@NoOneNoBody 感觉数据分析和爬虫还是不太相关的，最多算一般缺数据的公司的前置工作

yifangtongxing28

2023 年 12 月 16 日

爬虫不是都在往模拟人点击行为在走吗，这种还挺有意思的，纯接口的反扒机制已经限制死了

NoOneNoBody

2023 年 12 月 16 日

@aozhou #6
如果看到“数据分析”，你只想到“分析”、计算这些，那确实没什么关系
但数据分析首先要有数据，不能凭空创造，这个获取过程称为采样，采样是有专门《采样学》的，就是一大堆数据，哪些是包含有效信息的，哪些是只有无效信息的，要做筛选，说俗一点就是数据海选，试想一下，扔一堆 html 给分析人员会不会被骂死？当然是前置工作，没数据也无法分析
采样有多种途径，目前来说，网络采样是成本较低的一种

你要扩大思维，数据海选不一定就是“爬”外网，例如有个目录里面上亿个富文本，如何通过海选提取“有效数据”，如去掉广告，去掉无关的一些内容，保留主要的文章、对话、图片、表格……这些都是爬虫“爬后”的工作，总不会爬虫爬取结束后，一个字节都不动照搬显示吧？
再用上述例子，一亿个 html ，但分析部门要求只用五千万，至于为什么就不用纠结了，可能因为硬件所限，可能因为时间所限等等，一亿筛走一半，要说出个所以然，为什么那去掉的五千万是“没用的”，根据什么理论筛掉，随机么？这就是采样学要做的工作。分析部门中需要有人做这种粗活，分析师是不管这些的，如果分析过程发现样本“不合格”，是需要打回头重新采样的

freshgoose

2023 年 12 月 16 日

爬虫接外包都挺贵的，而且活比较轻松

auh

2023 年 12 月 16 日

爬虫最贵了。学好了，将来灰产的干活。

aozhou

2023 年 12 月 16 日

@NoOneNoBody 受教了，非常感谢~

aozhou

2023 年 12 月 16 日

@auh 呃~就是因为不想这么灰

levelworm

2023 年 12 月 16 日

@auh 感觉破解这块还是太难了

bequt

2023 年 12 月 16 日

爬虫总是在刀尖上舔血。

dearmymy

2023 年 12 月 16 日

爬虫技术栈挺尴尬的。逆向安全里也是鄙视链底端，那点 js 水平前端也看不上。

Dart

2023 年 12 月 17 日

遵守 robots.txt 就行了啊

levelworm

2023 年 12 月 17 日

@dearmymy 软件逆向里最高端的是啥？估计是工业上的玩意？还是病毒木马这些。

fox0001

2023 年 12 月 17 日

深度学习，考虑下

dayeye2006199

2023 年 12 月 17 日

大模型的数据团队

dearmymy

2023 年 12 月 17 日

@levelworm 二进制逆向里，觉得 vmp ，驱动保护之类，现在移动端反调试，llvm 混淆之类。主要网页爬虫，天花板太低了。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1000926

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.