TB 规模,数据库存储方式的时序类开源数据分析平台小汇总,大家指正。

2018-08-14 09:43:21 +08:00
 sjmcefc2

drill+metabase: Apache Drill 是一个低延迟的分布式海量数据(涵盖结构化、半结构化以及嵌套数据)交互式查询引擎,使用 ANSI SQL 兼容语法,支持本地文件、HDFS、HBase、MongoDB 等后端存储,支持 Parquet、JSON、CSV、TSV、PSV 等数据格式。受 Google 的 Dremel 启发,Drill 满足上千节点的 PB 级别数据的交互式商业智能分析场景。这个本意是提升 hadoop 的查询速度,也可以接入关系数据库。 mtabase 安简单,支持复杂 join,对数据表的要求高,可能导致修改原表,比如添加字段等等 (这就不太好了)。 redash:看着 demo 比较简单,时间聚合功能弱;查询可视化。 superset:不支持多表 join。但是基本上应用中多表 join 是必须的。

======= 很想找到一款能够对时间序列数据进行数据挖掘的平台,上面的基本是可视化的,rapidminer(不再开源?),weka 等等哪个对不大的数据规模,数据库存储方式的时间序列数据进行挖掘呢? 读了一些文档,觉得还是视野太小了。大家帮忙出个主意?

1987 次点击
所在节点    程序员
3 条回复
glacer
2018-08-14 10:33:32 +08:00
InfluxDB+Grafana、ELK
sjmcefc2
2018-08-14 10:47:54 +08:00
@glacer elesticsearch 数值计算很弱,需要加 spark
winglight2016
2018-08-14 11:49:28 +08:00
ELK 足够了吧?想接入多种数据源,自己做 connector 吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/479567

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX