传感器数据存入数据库是单表存一亿条还是拆分成小表？

传感器约一万个，是拆分成一万张小表，还是把所有数据都汇总储存到一张大表中（行数会超过一亿条）然后分库分表比较合适？有没有有类似设计经验的大佬？

因为需要运用不少的关系型运算，读写一样高，暂不考虑时序数据库，只考虑传统关系型数据库。

T0m008

2022-05-17 01:03:44 +08:00

传感器之前不存在关系的话肯定是分开存比较好

Livid

2022-05-17 01:09:43 +08:00

试试这个：

https://www.timescale.com/

或者就用 MySQL 的分表和 partition ，不过到亿这个级别的计算，肯定是不能实时出结果的了。

eason1874

2022-05-17 01:13:31 +08:00

看需求啊，如果要整体排序，一万张表联合查询，那 SQL 太美我不敢想象

我比较倾向于按内容水平拆分，基本信息一张表，扩展信息另一张表。如果数据时效性强，就再按时间分表，比如按年份每年一张

dayeye2006199

2022-05-17 01:22:23 +08:00

如果关系查询都是针对单个传感器而言的话，建议直接使用数据库自己带的分表功能即可，例如 https://dev.mysql.com/doc/refman/8.0/en/partitioning.html https://www.postgresql.org/docs/current/ddl-partitioning.html

如果单表还是大，甚至可以考虑传感器+日期作为分区的 key 。

好处是不需要更改读写 SQL 的形式，数据库的 query 优化器可以帮助减少读写不必要的分区，只需要更改 DDL 就可以。

hefish

2022-05-17 08:00:10 +08:00

传感器的数据，不是用时序数据库合适一些吗？

tramm

2022-05-17 08:42:22 +08:00

2L 说得不错, 就用 TimeScale 不错.

话说, 一亿条数据也不多啊.

Vaspike

2022-05-17 08:54:38 +08:00

感谢 OP 的帖子,重新让我去看了下时序数据库相关

leonhao

2022-05-17 08:59:15 +08:00

@Livid 可以用 continuous aggregate, 传感器数据一般都是固定模式聚合查询。

ohmycorolla

2022-05-17 10:02:48 +08:00

读写分离，按需分 partition

littlewing

2022-05-17 10:28:08 +08:00

看你查询的需求了，如果拆了后查询的时候一个查询需要查询所有分表，或者有跨分表 join ，那还不如不拆

iotbase

2022-05-17 20:44:06 +08:00

可以试试这个： https://iotbase.io/

我们在进行一些发布前的准备。第一个真正意义上的物联网数据库：SQL 语法，MQTT 消息直写（也兼容 pg 线协议，所以当准 pg 用也可以），顶级的写入性能，顶级的分析查询性能（引擎内部对标 ClickHouse ，比 ClickHouse 快；外部对标 Timescale ，比 Timescale 快的 2-3 个数量级），免运维设计，极好的工程稳定性，支持常用 SQL 函数。有待改进的是，目前只支持单机（但支持 HA ），复杂的 SQL 分析函数和 JOIN 还在进行中。

对于你这个问题，应该用一个表搞定。分库分表以及类似设计其实已经不应该再用了。读写一样高+关系运算，说明你们“分析”的需求强，传感器单点数值基本是没意义的。iot 领域一个强需求是：实时监控报警。在这样的场景里，你需要分析所有传感器近期的状态和进行异常判定。设想，你每分钟向 1 万个表发起 1 万个查询，来告诉你 10000x60 个点的组合中，哪个超出了设定值。通常的 TP 数据库，包括 MySQL/Postgres/Timescale ，是不可能的，因为你是“读写一样高”。而用我们 iotbase ，在一个表里可以轻松的完成：）

如果有兴趣，欢迎联系我： contact@iotbase.io

iotbase

2022-05-17 20:52:24 +08:00

> 肯定是不能实时出结果的了。
@Livid 通常的 TP 确实是，但其实现代硬件真实的实力是，10 亿行数据单机 2-3 列的单表聚合可以在 10ms-1s 以内完成。

iotbase

2022-05-17 21:03:44 +08:00

@ohmycorolla 如果是监控类分析，异步的读写分离通常不可接受，同步的读写本质没有分离，还会恶化性能

iotbase

2022-05-17 21:13:46 +08:00

@leonhao continuous aggregate 其实就是物化试图，本质是 pg 在后台帮你 refresh ，但是量大了，物化试图机制同样产生问题，当然有些手段可以调整，但毕竟只能治标。

leonhao

2022-05-17 21:42:17 +08:00

@iotbase continuous aggregate 和物化视图有本质区别，物化视图只能全刷新，continuous aggregate 可以根据参数增量刷新。我现在的项目每天一亿多条新增，使用起来没有任何问题。

joesonw

2022-05-17 23:16:58 +08:00

influxdb 等适合存时序数据的呗，一般能支持很复杂的 aggregation 。

Richard14

2022-05-18 09:22:21 +08:00

@iotbase 感谢，很高屋建瓴的分析，项目也很感兴趣

@joesonw 时序数据库对高读的表现并不是很好，再加上还需要关系型运算的支持，以前做过规模测试最后决定不用时序数据库

iotbase

2022-05-18 09:34:25 +08:00

@leonhao 所谓增量还是全量刷新，其实只是物化视图的实现细节[1]

另外，每天 1 亿其实只能算小数据，查询在 500ms 和 5ms 完成可能没直观感觉（但其实快还是能给你省钱，至少你可以把机器 instance 配置减到最低）。10 万个点，每个点数十个指标，数十秒一次上报。他们其实还想更快的数据收集，但系统做不到。你可以试一下，把你一年的数据压到 1 天（相当于你业务扩大 300 倍），看看 timescale 工作如何。

[1] https://wiki.postgresql.org/wiki/Incremental_View_Maintenance

joesonw

2022-05-18 09:34:48 +08:00

@Richard14 时序数据库一般预聚合效果会好一些。如果搜索条件变来变去确实扛不住。

iotbase

2022-05-18 09:43:09 +08:00

@joesonw 实话实话，influxdb 其实已经 out ，不管重技术层还是表示层。aggregation 其实是一个 low hanging fruit ，通常用 sql 都能组合出来，当然效率会比定制算子低一些，但通常据我所知，用户期待使用太复杂的算法的场合并不多（当然选择多总是欢迎的）。如果真要用，我建议还是一般性的 sql 模型，某些场景的 join 在现代硬件上其实可以高效的，只是现在时序厂商们的认知还没有到。单表局限场景，是可以的，但业务线发展了，还想一张表走天下，不可行。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/853326

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.