关于上亿数据的统计问题

2020-10-13 17:05:04 +08:00
 duyuyouci

现在数据库有一张表数据已经过亿了,需要从不同维度统计按日,按月的数据,有没有什么好的解决方案呀,求教各位大神

3427 次点击
所在节点    程序员
23 条回复
kaiz1121
2020-10-14 09:58:24 +08:00
如果是单表,可以选择 clickhouse,但是 clickhouse join 操作不行,但 clickhouse 单表还是宇宙第一。复杂多表不能单单靠一个组件就解决的。需要上一套系统,从 ETL 开始 监听 MySQL binlog,或者写入 mysql 的业务,双写到消息队列,然后把数据同步到写优化层,比如 hudi,然后从从写优化层导入到读优化层,比如 doris,然后从 doris 查询就很快了。如果是简单的统计,可以用 hbase,不用引入读优化层,和写优化层。但是如果是报表类的复杂查询,hbase 是不够的,有钱的话,直接用 ES,省心,慢了加机器。 还是得看具体业务需求。
laminux29
2020-10-14 10:21:23 +08:00
什么业务,什么设备以及设备性能指标,什么系统,什么软件,数据结构怎样,相关设备最近一个月以分钟为粒度的负载表,你做这事有什么资源,做着事有什么性能指标或特性偏向,等等。你问的这个问题,至少要给出以上这些基本这些信息。不然,让我学楼上所有老哥,激活天赋技能 [先知] ,进行盲猜?

而且你做这事,信息安全,数据权限,备份等问题,你还得自己想好怎么处理。
madworks
2020-10-14 11:40:19 +08:00
上亿数据,不同维度,按日按月???直接报表工具啊,powerbi,tableau,ssas

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/714575

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX