应届生去百度做 ETL 数仓如何?

2019-01-04 18:28:46 +08:00
 jirryzhang

RT,据说是传说中的大数据开发,洗日志

2976 次点击
所在节点    职场话题
10 条回复
sergio10
2019-01-04 18:52:29 +08:00
第一份工作就能去百度正编太好了 不要犹豫赶紧去
Wisho
2019-01-04 20:53:55 +08:00
还不错,百度的数据量刚刚的。同是洗日志,难题和问题会多很多。
别人日均洗 100GB,在百度你的业务搞不好要日洗 10TB,应该能学到不少。
jirryzhang
2019-01-05 17:18:23 +08:00
@Wisho 你确定不是逗我的吗?洗日志不管是 TB 还是 PB 有啥区别,反正写 ETL 程序处理字符串而已,感觉是个人都能做啊
Wisho
2019-01-05 22:32:03 +08:00
@jirryzhang 我确定没有逗你,我在 BAT 其中一家做过类似的东西。
你试试从毫无时效要求的洗数据出报表,再渐渐到有时效性要求的需求( 2h 内跑完 xx 天的数据,出 xx 项统计量),再到交互式查询( xx 秒内跑完,研究预热机制,研究计算引擎)。
你真以为就是表面看起来那么简单吗?
Wisho
2019-01-05 22:39:15 +08:00
@jirryzhang 还有,你说的对,程序逻辑大概就是处理字符串。但是你上游要对接 mq 或者一些日志采集中间件,下游要对接存储组件吧( low b 一点的就说 hbase,es 这种好了)?假设你在小公司洗 100+GB 数据,随便洗随便存吧,开源组件用起来,横向拓展 10 个、20 个节点好像能搞定耶。假如到了 100+TB 级,搞不好开源组件靠不住,或者需要深度定制。再深入一步,到了 100+PB 级,难道不需要任何魔改,直接装社区版就能用?

单纯说“洗日志”一个需求的话,确实没啥区别,代码逻辑都是那样处理字符串,substring 一下,组合一下,拼成一个个的 k-v 弄出去。但是这个东西背后有多少问题你可能需要好好地深思一下吧?
aldorado
2019-01-06 10:33:38 +08:00
@Wisho 大佬有没有博客或者相关博客推荐的
jirryzhang
2019-01-06 18:52:54 +08:00
@Wisho 唉,可是时效性要求不高,大都是离线场景,锦上贴花的东西,感觉也不好出绩效
jirryzhang
2019-01-06 19:09:01 +08:00
@Wisho 而且处理框架这层有 inf 做,我这层更像是填充业务代码的...
zcguo
2019-01-07 09:28:27 +08:00
能不能问一下这个岗位面试考啥了,我也想去面这个岗位
liamli
357 天前
ETL 还是个岗位呀, ETL 这个工作在大数据里处于什么级别呢? 是否可以理解为就是数据清洗的工作?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/523961

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX