使用 impala insert, hive insert 后 表查询性能出现巨大的差距?

2020-02-05 11:39:14 +08:00
 zhxjdwh

源数据表是a , 目标数据表是b, 格式:parquet-snappy

insert sql: insert owerwrite table b select * from a

  1. 使用 impala 执行 insert sql , 再用 impala 对 b 表查询
  2. 使用 hive 执行 insert sql ,再用 impala invalidate metadata/ refresh table, 再用 impala 对 b 表查询

用 impala 查询这两种方式 生成的表数据,性能会差别非常大,impala insert的方式 比 hive insert性能要几十倍??为什么会这样子,同一个表,一模一样的数据

1113 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/642243

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX