分布式存储系统, HDFS 是不是无可替代?

2018-03-15 16:23:26 +08:00
 jahan

Hadoop 框架下的 HDFS 大数据存储组件,用来存储海量数据的。目前是不是没有替代的方案?或者说 cdh、hdh 等等为基础 hadoop 生态圈无可替代? 无论 spark,flink,storm 都要缺少存储组件或者说必须运行在 HDFS 之上? 很想知道有没有一种能够快速部署、关注数据分析的开源产品或者方案? 觉得从用户角度,把现有的数据灌入平台(例如 hadoop 生态系统),利用平台(生态系统)提供各种武器高效分析才是目的。

5138 次点击
所在节点    程序员
8 条回复
Itoktsnhc
2018-03-15 16:58:18 +08:00
azure hdinsight 了解一下?
we000
2018-03-15 17:03:22 +08:00
ceph 了解一下?
whatsmyip
2018-03-15 19:25:32 +08:00
不是无可替代,更多是没法替代

很多公司以前用 Hadoop,数据都在 HDFS 上,做迁移很麻烦

Flink 不知道,Spark 确实要求 HDFS,尽管它要替换 Hadoop,但是数据层这块,真的不好动,毕竟换一个新的系统不是一件容易做到的事(对于说大不大,说小不小的公司来说),至于 Storm,没说一定要落地到 HDFS
啊,我放到 Redis、mongoDB、Mysql 都有

至于更快的存储,也是有的,比如 Alluxio,是 Spark 同实验室开发出来的,思想跟 Spark 类似,都是借助内存对硬盘碾压式的读写速度

最后,目前大数据平台是有很多的,开源的 HUE,闭源的阿里、Azure 都有。另外,/t/428727 这个帖子里也提到了很多工具。
jahan
2018-03-15 20:41:15 +08:00
@whatsmyip 其实对于初学者来说,从未来学习角度讲,如果有更好的替代方案那是最佳的,毕竟 hadoop 也是 2004 年的了(当然,c,unix 都是上个世纪 80 年代的,依然在业界活的不错)。
如果对于企业界来说,确实是 legacy 太多,不好转型。
Matei 做的 Dawn 项目我觉得就是一个特别好的平台,特别希望数据分析用户不用特别关心 infrastructure,而只关心数据如何进入,分析数据,呈现分析结果的平台。尤其是各种分析武器接口,比如 python,r 等对非计算机科班的来说就特别重要,当然还有各种 ml 包。从纯使用者来讲,特别想找到这样一个下一代的解决方案。
记得哪里看过一个开源项目介绍,说是用户可以不关心 infrastructure,快速部署,马上使用,忘记具体名字了,只记得开源版本和商用版本差别较大。

flink 也是可以使用非 hdfs 的数据存储,但总觉得 hdfs 的影子很重。
目前的方案,感觉基本上是基于 hadoop 的 cloudera 和 hortonworks,mapR。如果要搜索新的更快的存储,除了上面的说的几个,要搜什么关键词呢?
HUE 应该是 cloudera 开发的?

看哪一个更有前途是不是要看哪一家开源拿的投资多,哪家股价高? hdp 和 cldr 股价差不多。
jahan
2018-03-15 20:56:24 +08:00
@whatsmyip Alluxio 貌似也是一个针对不同数据源( hadoop,s3 等)的数据接口,Alluxio, formerly Tachyon, enables any application to interact with any data from any storage system at memory speed.
Xibuka
2018-03-16 08:01:16 +08:00
GlusterFS 了解下~
lyc1116
2018-03-16 17:50:09 +08:00
顶 GlusterFS
jahan
2018-03-16 19:15:24 +08:00
@Xibuka
@lyc1116
主页貌似没有案例?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/438374

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX