有了解数据湖和 hudi 到底是什么关系的吗?

2021-09-23 20:02:30 +08:00
 ysn2233

最近在调研"数据湖",发现这个概念真的很抽像,网上大多数定义是,一个可以存放各种类型,结构化或者非结构化原始数据的大仓库。

然后 Hudi 各种和数据湖绑在一起,但是经过学习,我又感觉 Hudi 只是一种支持 acid,upsert/delete 和 cdc 加强版 hive,依然需要在写入时定义 schema,实在是 get 不到和所说的数据湖有什么关系。

1079 次点击
所在节点    问与答
4 条回复
whileFalse
2021-09-23 20:55:13 +08:00
数据湖就是让 hadoop 能用的一个文件存储系统。

比如因为有一些软件能让 hadoop 读 /写 s3 中的文件,而 s3 又是无限容量的,所以 s3 可以当作数据湖。
SbloodyS
2021-09-23 22:53:18 +08:00
hudi 批处理性能不太行
Rocketer
2021-09-23 23:08:05 +08:00
我做过一个所谓数据湖的项目,就是输入端接纳各种数据源,输出端则要转化为一种可查询的的格式,以供数据消费者检索。

用 AWS 的几个服务组合一下就实现了,并不难,但我还是觉得这跟 ETL 没啥区别。
lithiumii
2021-09-23 23:39:04 +08:00
我是这么理解的:
以前,数据要定义好类型、关系等等,再按照范式存起来,这个叫数据库。
后来啥都不管了,连文件格式都不管了,先存起来再说,就起个名字叫数据湖,意思是啥都在湖里,需要啥现场捞就是了。但毕竟还是要用来查询的,所以不能真的啥都不管,还是需要一定程度的标准化,所以……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/803732

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX