基于 Hadoop 的 SparkSQL/impala 不支持 update,有什么分布式系统推荐的?

2016-11-16 09:32:36 +08:00
 tchekai704

本来基于 HDFS 的 spark/impala 的 sql-like 的语法是挺好用的,性能也很不错,无奈 hdfs 上的存储系统一般不支持 update/delete ,只支持 insert ,刚接触 Bigdata 、 DW 这一块,不是很了解这方面的技术 /产品,有什么推荐的吗?

目前有要求如下

  1. 分布式,方便扩展
  2. sql-like 是最好的
  3. 需要支持 update/delete 等修改
  4. 尽量是开源免费,而且不那么小众的

目前我知道 GreenPlum , Any other ideas?

PS:没找到合适的节点。

8227 次点击
所在节点    MySQL
11 条回复
k00baa
2016-11-16 09:34:43 +08:00
ElasticSearch 可以满足你的需求
tchekai704
2016-11-16 09:43:03 +08:00
@k00baa 看了一下 ElasticSearch 的 SQL 并不强大,而且是三方的。还是谢谢推荐!
miaoever
2016-11-16 09:46:18 +08:00
目前我接触过的数仓上一般都不支持 update ,基本都是 insert overwrite 或者新建 table 然后 drop 掉原来的 table.
yuankui
2016-11-16 10:18:23 +08:00
那就是 cassandra 啦。。
yuankui
2016-11-16 10:19:33 +08:00
楼主你可以先去查查,为什么这些数据仓库都不支持 update 。。
难道他们 SB 吗?
est
2016-11-16 10:44:26 +08:00
Cassandra
vus520
2016-11-16 10:55:58 +08:00
写了一大通,想了想,还是删掉了
wmttom
2016-11-16 13:51:37 +08:00
既然是 hadoop 生态,我能想到的就是 kudu 了
tchekai704
2016-11-16 13:56:51 +08:00
@yuankui
我所知道的基于 Oracle 的 OLAP 的可以支持 update ,但是同时操作相关索引的性能代价很大; hdfs 本身并不支持修改数据,所以 HBase 这样的产品也是用插入新行并且后期进行 compact 来模拟 update ;至于传统的 DW 产品为什么不支持 update 确实是不知道。
tchekai704
2016-11-16 16:17:18 +08:00
@vus520 please!
liprais
2016-11-16 23:48:15 +08:00
hive 是支持的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/320831

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX