大数据开发两年,广州,求一个大数据坑位(倾向流处理开发),附简历

2020-03-01 10:48:14 +08:00
 shezm

联系方式:

个人信息:

工作经历

自我评价

工作经历

xxx 数据管理平台

项目描述:xxx 数据管理平台主要用于统一管理公司内部 TB 级用户数据,用以支撑业务所需的数据采集,数据清洗,数据提取等。

我的职责:1.设计并实施用户标签存储方案,使用 hive 和 hbase 作为存储工具,Spark SQL 作为数据处理工具,优化提高了 Spark 读取 Hbase 的性能,输出并维护相关文档。

2.数据采集:使用 maxwell 采集 mysql binlog,并发送到 kafka,使用 kafka connect 作为接收端存储到 hdfs 中。

3.数据管理后台开发,使用 spring boot,开发基于 ilvy 的 spark 自动化处理模块,元数据管理模块及数据可视化模块的开发。

4.数据处理及挖掘,使用 spark sql,spark ml 库等负责日常数据提取和挖掘需求。

高可靠的网络实时监控系统

项目描述:个人项目,基于 kdd99 数据集,使用 spark ml 库 svm 算法进行训练,将模型保存。使用 kafka + Spark streaming 实时接收数据,加载模型并对网络数据识别,然后存储到 mysql。使用 echarts 实时获取数据并展示。

所用技术:随机发送 kdd99 流量数据模拟实时场景,使用 kafka 的幂等的 producer 发送数据,实现 exactly once 数据传输。使用 spark Streaming+kafka 获取数据,其中使用 hbase 对 kafka 的 offset 数据进行外部持久化,避免当 spark streaming 出现故障的时候 offset 丢失的情况。

技能展示

程序设计语言:熟悉 scala,java,python,熟悉函数式编程。

大数据生态:熟悉 hadoop hdfs,hive,hbase 等大数据存储组件及其设计原理,熟悉 spark 各组件及其原理,熟悉 kafka 等消息中间件及其原理。

web 后端开发:熟悉 Java 后端开发,Mysql 数据库,能使用 spring,spring boot 等框架进行 web 开发。

机器学习:熟悉常见机器学习算法及其内部原理,以及 sklearn,spark ml 等框架。

2152 次点击
所在节点    求职
2 条回复
vision4fun
2020-03-04 10:27:36 +08:00
猪场内推可以联系 ig[at]gmail ~~
fei110
2020-07-23 18:00:55 +08:00
我们在招。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/648773

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX