给大佬们请安.......hive 中日跑 2 亿条数据,那么这张表该怎么设计?谢谢了~

2020-06-04 15:04:15 +08:00
 Leeci
2094 次点击
所在节点    数据库
15 条回复
yincrow
2020-06-04 15:34:41 +08:00
表名:hive_zhong_ri_pao_2_yi,不客气
yincrow
2020-06-04 15:39:34 +08:00
@yincrow 想了想不太合适,hive_china_japan_run_two_Billion 这个比较好
smallpython
2020-06-04 15:42:26 +08:00
越简单越好
monkeyWie
2020-06-04 15:45:26 +08:00
用 kudu
Leeci
2020-06-04 15:45:59 +08:00
@yincrow 我丢~不是问表名怎么取啦,是表的物理结构,我现在只能想到传统的分区,并且做增量的方法,还有没有其他的方法啊?
Leeci
2020-06-04 15:47:02 +08:00
@monkeyWie KUDU 是什么?因为日跑两亿,所以在建表设计上要考虑性能问题
Leeci
2020-06-04 15:48:01 +08:00
@monkeyWie KUDU 可能不行,做的银行项目,环境都是定的,不能改 - -!
whx123
2020-06-04 15:48:29 +08:00
需求不够详细啊
Leeci
2020-06-04 15:50:28 +08:00
@whx123 银行项目,单表日流水 2 亿左右,整个省份的数据。所以现在在表的设计上要考虑性能问题。目前我能想到的就是分区或者分桶+增量的方式,想看看坛子大佬有没有更好的方法。
imzhazha
2020-06-04 15:58:31 +08:00
你就说了日数据量 2 亿,其他啥都没说,别人没法给建议。你啥业务,要出什么数据,出了什么问题,你得把你要干嘛讲清楚。优化是要看业务场景的。
Leeci
2020-06-04 16:00:47 +08:00
@imzhazha 抱歉大佬,已经更新了,抱歉抱歉
glfpes
2020-06-04 16:03:31 +08:00
1 天 2 亿行对 hive 来说毛毛雨,按天分区就好

其实业务需求才是你该考虑的,比如要不要根据城市也分区之类的。
Leeci
2020-06-04 16:06:18 +08:00
@glfpes 因为我一直从事的都是银行,银行虽然会用到 hive 和 hadoop 那一套,但实际上也就是批处理好一点。城区分区这种我也有想的,就在想对于 hive 有没有什么更好一点的优化方案
aladdindingding
2020-06-05 09:07:06 +08:00
一天才两亿 你们数据经常改动吗 不改的的话用 clickhouse 我们还是单机一天 5 亿妥妥的
Leeci
2020-06-09 16:40:55 +08:00
@aladdindingding 要改动的,而且环境是固定的,不能向科技部提出增加一个 clickhouse 什么的 - -!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/678596

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX