Hadoop 框架下的 HDFS 大数据存储组件,用来存储海量数据的。目前是不是没有替代的方案?或者说 cdh、hdh 等等为基础 hadoop 生态圈无可替代? 无论 spark,flink,storm 都要缺少存储组件或者说必须运行在 HDFS 之上? 很想知道有没有一种能够快速部署、关注数据分析的开源产品或者方案? 觉得从用户角度,把现有的数据灌入平台(例如 hadoop 生态系统),利用平台(生态系统)提供各种武器高效分析才是目的。
Hadoop 框架下的 HDFS 大数据存储组件,用来存储海量数据的。目前是不是没有替代的方案?或者说 cdh、hdh 等等为基础 hadoop 生态圈无可替代? 无论 spark,flink,storm 都要缺少存储组件或者说必须运行在 HDFS 之上? 很想知道有没有一种能够快速部署、关注数据分析的开源产品或者方案? 觉得从用户角度,把现有的数据灌入平台(例如 hadoop 生态系统),利用平台(生态系统)提供各种武器高效分析才是目的。
1
Itoktsnhc Mar 15, 2018
azure hdinsight 了解一下?
|
2
we000 Mar 15, 2018
ceph 了解一下?
|
3
whatsmyip Mar 15, 2018
不是无可替代,更多是没法替代
很多公司以前用 Hadoop,数据都在 HDFS 上,做迁移很麻烦 Flink 不知道,Spark 确实要求 HDFS,尽管它要替换 Hadoop,但是数据层这块,真的不好动,毕竟换一个新的系统不是一件容易做到的事(对于说大不大,说小不小的公司来说),至于 Storm,没说一定要落地到 HDFS 啊,我放到 Redis、mongoDB、Mysql 都有 至于更快的存储,也是有的,比如 Alluxio,是 Spark 同实验室开发出来的,思想跟 Spark 类似,都是借助内存对硬盘碾压式的读写速度 最后,目前大数据平台是有很多的,开源的 HUE,闭源的阿里、Azure 都有。另外,/t/428727 这个帖子里也提到了很多工具。 |
4
jahan OP @whatsmyip 其实对于初学者来说,从未来学习角度讲,如果有更好的替代方案那是最佳的,毕竟 hadoop 也是 2004 年的了(当然,c,unix 都是上个世纪 80 年代的,依然在业界活的不错)。
如果对于企业界来说,确实是 legacy 太多,不好转型。 Matei 做的 Dawn 项目我觉得就是一个特别好的平台,特别希望数据分析用户不用特别关心 infrastructure,而只关心数据如何进入,分析数据,呈现分析结果的平台。尤其是各种分析武器接口,比如 python,r 等对非计算机科班的来说就特别重要,当然还有各种 ml 包。从纯使用者来讲,特别想找到这样一个下一代的解决方案。 记得哪里看过一个开源项目介绍,说是用户可以不关心 infrastructure,快速部署,马上使用,忘记具体名字了,只记得开源版本和商用版本差别较大。 flink 也是可以使用非 hdfs 的数据存储,但总觉得 hdfs 的影子很重。 目前的方案,感觉基本上是基于 hadoop 的 cloudera 和 hortonworks,mapR。如果要搜索新的更快的存储,除了上面的说的几个,要搜什么关键词呢? HUE 应该是 cloudera 开发的? 看哪一个更有前途是不是要看哪一家开源拿的投资多,哪家股价高? hdp 和 cldr 股价差不多。 |
5
jahan OP @whatsmyip Alluxio 貌似也是一个针对不同数据源( hadoop,s3 等)的数据接口,Alluxio, formerly Tachyon, enables any application to interact with any data from any storage system at memory speed.
|
6
Xibuka Mar 16, 2018
GlusterFS 了解下~
|
7
lyc1116 Mar 16, 2018
顶 GlusterFS
|