请教亿级别的 Time Series 数据用 SQL 存储的最佳实践

2018-01-13 04:30:57 +08:00

lzdhlsc

想请教大家一个 SQL 大表的问题。

需求为: 使用 SQL 存储大约 12 亿的 time series 数据, ttl 为 30 天。Schema 为 (group_id, sub_group_id, timestamp, value)。

绝大多数查询是做一些 aggregation , 比如 sum(value) group by sub_group_id。所有查询保证都在同一 group id 内。

我能想到的一些做法：

通过 group_id 分成多个 server。
按照 timestamp (以天为单位), group_id 分表。这样可以按天 drop table 来删除过期数据。
为 (group_id, sub_group_id, timestamp) 创建 index。

问题：

使用分表会降低 performance 吗？(从我的 test 结果看好像是的。)
MySQL or PostgreSQL?

PostgreSQL 的好处是:
1. 可以使用 insert trigger 自动创建分区。
2. 支持 uuid
MySQL 好处:
- 从网上来看，分表下的 performance 似乎要比 PostgreSQL 好一些。

问题很多，先感谢大家的宝贵时间！

2168 次点击

所在节点

问与答

13 条回复

widewing

2018-01-13 09:03:31 +08:00

为啥不用 tsdb?

gouchaoer

2018-01-13 09:22:06 +08:00

你这个每行字段很小只有几个字节，所以几亿数据也就几 g 或者几十 g 不算多，分表对查询没提高的吧，因为你查询用了索引，只是插入速度提高了。。。。总结，可以按照日期分表每张表控制在千万级别，保证插入速度，查询的时候分表查

dangyuluo

2018-01-13 09:37:34 +08:00

试试 pi 数据库吧

feverzsj

2018-01-13 13:22:03 +08:00

你才这么点数据，至于折腾成这样吗，随便什么数据库，一张表就足够了

rrfeng

2018-01-13 13:46:17 +08:00

如果要考虑以后接入更多的话，直接上 tsdb
如果以后也只有 12 亿的话，MySQL 还是什么 SQL 区别不大，针对性的做优化就好了

cevincheung

2018-01-13 14:32:30 +08:00

postgresql 站队

ziding

2018-01-13 15:12:35 +08:00

postgresql 有很多扩展，很适合，你可以看看 pipelinedb 感觉就是为了你这个场景量身定做的。mysql 数据量大了之后关联查询想死的心都有了。

dexterzzz

2018-01-13 15:48:36 +08:00

列存储数据库专门干这个用的

suixn

2018-01-13 15:56:18 +08:00

尝试下 clickhouse，实测百亿级数据，有 group by. order by. 10s 内完成

lzdhlsc

2018-01-13 19:11:49 +08:00

@widewing 团队决定了用 sql。可能是因为时间紧没时间从头开始维护新技术栈。

lzdhlsc

2018-01-13 19:14:20 +08:00

@gouchaoer 我们测试了一下大约有个几百 G 吧。我描述的可能是简化版的 schema，实际上每个 value 可能是 4 个 double 类型。

akira

2018-01-13 19:58:41 +08:00

你要给出预期执行的时间呀。允许跑一天的话，什么都不用处理的啦。

lzdhlsc

2018-01-14 04:08:10 +08:00

@akira 要支持 Online Service。最好平均执行时间小于 1 秒。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/422523

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.