公司大数据这块一直用 hive 跑的,但是 hive 实时性不行,跑跑后台任务还可以。 最近想把这个实时性查询弄上去,spark 是一个选择,肯定比 hive 快,但是毕竟是 scala 写的,上限应该不如基于 C 的查询引擎快,这次想要一步到位。 impala 是一个选项,但问题也挺多的,比如复杂类型只支持 parquet 类型存储,然而公司的数据一直都是 text 存的,光转这个就是一个巨大的工程,还有一些问题比如 partition key 不支持 date 类型、map 根据键访问值的方式过于奇怪等等。 最后打算用 postgres-xl,因为公司用 pg 比较多,线上数据库也是 pgxl,也写过一些插件对 pg 源码也比较熟悉。但是做了一阵子发现这个东西简直不适合做大数据啊,不支持多进程,生成的查询计划也很蠢,而且查询过程中连个进度条都没有。 想问一下大家有拿这个做大数据分析的吗?还是我的使用方法有问题?