大量上报信息,是存 InfluxDB 还是存 Doris 中 ?

2024-05-29 09:29:19 +08:00
 jiangziheng
  1. 设备每分钟上报一次数据,数据大小 200 字节
  2. 设备数量 1w->10w->50w.
  3. 前期数据保存半年,后面只存三个月。
  4. 业务想要个设备列表,展示最新的上报数据。

目前想存入 Doris 中,数据进行压缩,别的还没考虑好。大佬们有啥好的方案么?

2692 次点击
所在节点    数据库
13 条回复
anonydmer
2024-05-29 09:31:38 +08:00
这个场景应该优先时序库吧
laikick
2024-05-29 09:36:56 +08:00
InfluxDB 啊
yeyang5211
2024-05-29 09:39:15 +08:00
看怎么查吧 物联网场景大多数适合时序数据库,不查的写文件里扔 oss 都行
heiya
2024-05-29 10:05:10 +08:00
展示最新的上报数据需要聚合之类( sum, count,group by ...)的操作吗?如果是,感觉 Doris 可以。
xiaoer90
2024-05-29 10:05:48 +08:00
时序数据库:influxDB ,timescaledb ,TDengine
Morriaty
2024-05-29 10:12:19 +08:00
这东西看你的 read 需求
1. read 实时性不高,同时要复杂的组合 filter 条件、join ,那就 hive
2. read 实时性高,同时要复杂的组合 filter 条件,但不用 join ,上 influxDB
3. 同条件 2 ,还需要文本搜索,上 ES
4. read 实时性高,同时要复杂的组合 filter 条件、join ,那就 clickhouse
qweruiop
2024-05-29 11:48:33 +08:00
doris 和 clickhouse 都毫无压力。。。
xueling
2024-05-29 15:06:13 +08:00
这种设备上报的数据查询方式,一般是聚合统计指标或者按设备/时间查原始记录信息。实现方案很多,推荐:victoriametrics,timescaladb,hbase ,至于要不要选择 ck 或者 doris ,主要看查询的复杂程度。如果有比较多的维度字段,需要任意选择维度进行即席查询,可以使用 ck 或 doris 。如果维度字段很少,查询方式比较简单的话,那就不需要用 ck ,doris 。业务实现涉及很多数据指标,可以了解一下我的开源项目: https://github.com/xl-xueling/xl-lighthouse
yjhatfdu2
2024-05-29 15:57:06 +08:00
clickhouse 里面可以再加一个物化视图,用 ReplacingMergeTree ,用设备 ID 去重时间戳做版本号,查询的时候再用 window 查询查每个 ID 时间戳最大的,这样就可以获得一个最新的数据,而且这个物化视图会异步的自动清理老数据,速度应该可以很快
xianzhe
2024-05-29 21:18:55 +08:00
如果没有数据处理的需要,只是简单的查询,influxdb 或者其他 LSM 类的数据库都可,没有必要上 Doris 白白浪费资源。基本赞同 6 楼的。
VoiceEXONE
2024-05-30 07:19:25 +08:00
如果业务需要把数据进行计算,然后扔 grafana 维度报表分析,不做 join 的话 是直接读 influxDB 还是从 influx DB 分流备份的数据库?
LDa
2024-05-30 09:23:05 +08:00
influxdb 社区版默认并未提供集群解决方案 记得做好性能测试
sampeng
2024-05-30 16:05:41 +08:00
其实集群不集群没啥关系。。只要做好备份。挂了能短时间拉起来,对业务影响没那么大就无所谓

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1044921

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX