大数据开发两年，广州，求一个大数据坑位（倾向流处理开发），附简历

2020-03-01 10:48:14 +08:00

shezm

联系方式：

wechat：asd653583

个人信息：

xxx/男 /1995
惠州学院 /本科 /2018 届
求职意向：大数据开发（偏向流处理开发）
工作经验：2 年（半年实习后转正）

工作经历

2018.1-至今：xxx 大数据开发

自我评价

热爱技术，善于总结思考，勤写博客，每月保持 3-4 篇博客输出，信奉输出倒逼输入。
动手能力强，对技术有浓厚的兴趣，曾动手实现一个简易的 mapreduce 框架，实现 raft 共识算法等（ MIT6.824 ）。
面向 google 编程，思维活跃，喜欢钻研底层，学习过 jdk，spark 部分组件源码。
逻辑清晰，沟通能力强，个人博客（博客园，附地址）：http://www.cnblogs.com/listenfwind/

工作经历

xxx 数据管理平台

项目描述：xxx 数据管理平台主要用于统一管理公司内部 TB 级用户数据，用以支撑业务所需的数据采集，数据清洗，数据提取等。

我的职责：1.设计并实施用户标签存储方案，使用 hive 和 hbase 作为存储工具，Spark SQL 作为数据处理工具，优化提高了 Spark 读取 Hbase 的性能，输出并维护相关文档。

2.数据采集：使用 maxwell 采集 mysql binlog，并发送到 kafka，使用 kafka connect 作为接收端存储到 hdfs 中。

3.数据管理后台开发，使用 spring boot，开发基于 ilvy 的 spark 自动化处理模块，元数据管理模块及数据可视化模块的开发。

4.数据处理及挖掘，使用 spark sql，spark ml 库等负责日常数据提取和挖掘需求。

高可靠的网络实时监控系统

项目描述：个人项目，基于 kdd99 数据集，使用 spark ml 库 svm 算法进行训练，将模型保存。使用 kafka + Spark streaming 实时接收数据，加载模型并对网络数据识别，然后存储到 mysql。使用 echarts 实时获取数据并展示。

所用技术：随机发送 kdd99 流量数据模拟实时场景，使用 kafka 的幂等的 producer 发送数据，实现 exactly once 数据传输。使用 spark Streaming+kafka 获取数据，其中使用 hbase 对 kafka 的 offset 数据进行外部持久化，避免当 spark streaming 出现故障的时候 offset 丢失的情况。

技能展示

程序设计语言：熟悉 scala，java，python，熟悉函数式编程。

大数据生态：熟悉 hadoop hdfs，hive，hbase 等大数据存储组件及其设计原理，熟悉 spark 各组件及其原理，熟悉 kafka 等消息中间件及其原理。

web 后端开发：熟悉 Java 后端开发，Mysql 数据库，能使用 spring，spring boot 等框架进行 web 开发。

机器学习：熟悉常见机器学习算法及其内部原理，以及 sklearn，spark ml 等框架。

2152 次点击

所在节点

2 条回复

vision4fun

2020-03-04 10:27:36 +08:00

猪场内推可以联系 ig[at]gmail ~~

fei110

2020-07-23 18:00:55 +08:00

我们在招。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/648773

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX