大家好,本人 Python 爬虫和服务端方向,目前在职,暂时不考虑离职,就是想问一下下一步能怎么走

2018-08-26 16:00:07 +08:00
 Lateautumn
2017.6 毕业,去年在小公司,今年来了一个二线厂,18k 的工资,平常主要接触爬虫和服务端的工作,爬虫最深的时候接触到反编译 app,脱壳之类的,但是没有安卓的开发测试经验,之前有主持过研发爬虫框架,主要使用 python 的 asyncio 来做的异步,服务端的话用的是 aiohttp,sanic 等等可能项目是内部工具化,所以大家亲喷,数据库的话常使用的大概是 pg,redis,es 这些,日常开发也是基于 gitlab 的 mr 机制,对于大厂这种团队式开发流程应该是挺熟的,开发环境生产环境都是基于 docker 来开发的,目前虽然项目垃圾,但是也是用上了 k8s 和 swarm,大概就是这样,因为我们组逐渐是作为整个大项目平台的主力支撑,所以目前也接触到一些数据 etl 流程的东西,比如调度和大数据处理,本人对于 etl 流程以及数据分析还是挺感兴趣,不知道以后该怎么走
2781 次点击
所在节点    求职
13 条回复
bestkayle
2018-08-26 20:10:27 +08:00
职业发展好快
luzhongqiu
2018-08-26 20:57:56 +08:00
经历和我很像哈哈。。建议研究下大数据套件吧! 还有 python 的性能后面会慢慢成为瓶颈
SpiderXiantang
2018-08-26 21:45:14 +08:00
我现在是在做爬虫的实习,爬虫方面自己看过 scrapy 的源码,也尝试用 aiohhtp 实现主要功能,我虽然喜欢爬虫,但是其实对破解反爬没啥兴趣,对于爬虫的化还是想自己造一些又用的轮子.和你很像的是现在在公司做的也是 etl 处理,主要是通过 livy/airflow 调度任务进行清洗打标,不过其实我对 etl 不大感兴趣,打算 9 月份回校之后去学习一些机器学习的内容,争取向那个方向靠拢.
xiaoshenke
2018-08-26 21:50:09 +08:00
调度有兴趣的话 很多可以研究啊任务调度 spark airflow 容器调度 k8s 这仨都研究通了估计能到高级研发水平
crawl3r
2018-08-27 10:26:12 +08:00
你工作才一年就学会我 5 年的东西,真不敢相信。别的不说光反编译脱壳就是别人搞三年都不见得多牛逼。不懂安卓开发你反编译的估计也是简单的小应用吧。另外爬虫做得多了,尤其涉及到有各种反爬的爬虫时,你会发现没有一种通用爬虫框架能完美适用,最好的方案是在一个足够灵活的框架上做扩展,所以对于你所谓的“爬虫框架”持怀疑态度。对于 etl 不懂就不说了。如果你对爬虫感兴趣的话,有几个方向:
1. 爬虫:研究破解各种反爬手段,包括加密、逆向、验证码之类
2. 框架开发:如果对爬虫了解够深可以自己写个牛逼的框架出来,但我见过的框架都不怎么牛逼
3. 逆向工程师:专门破解 app、脱壳

另外真羡慕你一年经验就给到 18k,看来我得准备简历了
hjw45611
2018-08-27 11:08:00 +08:00
"爬虫最深的时候接触到反编译 app,脱壳之类的"

不明白爬虫和反编译 app 有啥关联。。我是做 Android 的,没深入玩过爬虫。
如果想要从事逆向方面的话,逆向与安全都是要了解的,可以学学网络抓包、Hook 相关技术、反调试反 Hook、JNI 技术、so 文件结构、IDA 动态调试、Arm 汇编、Smali 语法、混淆加固、签名验证等等。
tony8023714
2018-08-27 11:25:23 +08:00
一年 18K....
Lateautumn
2018-08-27 22:37:20 +08:00
@bestkayle 趁着年轻,多跳几次提提薪资
Lateautumn
2018-08-27 22:37:44 +08:00
@luzhongqiu 哈哈,正有此意
Lateautumn
2018-08-27 22:38:42 +08:00
Lateautumn
2018-08-27 22:39:25 +08:00
@xiaoshenke 最近正在看这方面的,调度这东西感觉很重要
jakejie
2018-10-14 21:08:33 +08:00
这已经很厉害了 我怀疑我来错了城市 也一直在瓶颈期 虽然做个小负责人 但是并没什么用。。还是想提升自己才是主要的。
tuomasi
2019-03-23 16:15:52 +08:00
@hjw45611 爬 app 如果 app 限制抓包 需要砸壳

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/483353

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX