搭建 [物联网] 数据中台

2024-05-29 17:33:48 +08:00
 RedBeanIce
我们是一个 30 人不到的小开发团队。

目前选型数据库是 tdengine ,但是遗留了很多老系统有数据库 sql server ,mysql 等等

我们要将这些其他数据库的数据同步到 td 里面,我们查询了很多文档,类似 datax 方案,类似 flink cdc 方案,消息队列方案,流处理方案,数据库本身自带的主从方案。

请问一下问题:
1 ,我们选择 td 数据库有问题么
2 ,数据同步方案有推荐的么,我们目前准备使用 datax ,原因是他简单。
我们没有人维护 flink 大数据相关的集群,也没有人去维护消息队列的高可用。
3771 次点击
所在节点    数据库
50 条回复
qiyilai
2024-05-29 17:37:13 +08:00
数仓用 doris
SbloodyS
2024-05-29 17:40:22 +08:00
一般衡量的标准有预算、数据团队大小、业务体量(数据量)、需求,有了这些才好进一步评估
NoobPhper
2024-05-29 18:17:55 +08:00
tdengine 不是时序性数据库吗, 轻量级 OLAP 应该能做, 但是稍微复杂点的这玩意不好做, 不要把架构整这么复杂, 如果是云上服务的话 建议 买云服务, 因为现在的 无论是 HTAP Database 还是纯 OLAP database 如果自建 , 运维(安全稳定)都是极大的心里负担
hero1874
2024-05-29 19:01:11 +08:00
我看 tdengine 也是针对物联网的,也许会比较契合你们物联网数据中台的业务,但还是像 2 楼说的那样才更好评估,如果你们没有实时性的要求,其实也没太大必要投入服务器成本和运维成本去搞一套 flink 集群,用 dolphinscheduler 海豚调度去配合 datax 其实也是可以的,如果没有对时序数据库的需求,可以调研看下 doris 和 starrocks ,起码这两个运维会好很多
RedBeanIce
2024-05-29 19:50:16 +08:00
@SbloodyS
@hero1874

预算约等于无,数据团队都是开发在临时做一下。数据量大概超过一千个设备,说是 3-5 秒采集一次数据。

需求是问的那样,物联网数据中台,将多个数据库的数据采集到里面。
进行数据的分析,预警,报表,等等
RedBeanIce
2024-05-29 19:50:38 +08:00
@qiyilai 好的!我去和领导聊一下,,,目前定的是 td
RedBeanIce
2024-05-29 19:50:59 +08:00
@NoobPhper 预算约等于无,都是自己搭建的。
jiakme
2024-05-29 20:49:10 +08:00
1. 梳理需求背景和当前现状:a. 人员素养 b. 数据量,冷热情况,TPS/QPS c. 未来数据清洗情况
jiakme
2024-05-29 20:55:57 +08:00
1. 梳理需求背景和当前现状:a. 人员素养 b. 数据量,冷热情况,TPS/QPS c. 未来数据清洗情况,数据分析维度 d. 当下硬件条件,网络情况,技术栈
2. 结合前述条件分析引入技术栈情况:如果数据局部热,大部分冷,完全可以采用冷数据写入方式,只要有一个热点数据接收即可,无须引入 cdc ; TPS 和数据量少,直接用 mysql 抗,高版本 mysql/pgsql ,简单数据 TPS 200 ,几千万数据量随便用;中间件需要取舍一下轻量级和重量级,flink cdc 比较轻量,可以直接内嵌 springboot 使用,无须作为 flink task 集成,datax 有点重
3. 编写 demo ,流程可行性确认,成本确认
4. 方案实现和上线
xueling
2024-05-29 21:08:02 +08:00
你说的物联网的数据中台,我觉得应该有两方面作用:1 是物联网设备上报的原始消息的读写,2 是相关数据指标的统计监控,我觉得第一部分的功能选择时序性数据库还可以,但第二部分的功能其实很牵强,虽然时序数据库也可能有这方面的功能,但性能不会很强。我建议您了解一下我的开源项目: https://github.com/xl-xueling/xl-lighthouse ,虽然是大数据项目但后期维护其实非常简单。支持一键部署、数据自动备份、可以灵活扩容,轻量级使用,可以快速实现大批量数据指标。
xianzhe
2024-05-29 21:14:31 +08:00
不要 ALL in 一个地方,物联网数据上报和分析显然一个写入要求高,一个读取要求高,没有哪个数据库能做到既要又要的。你应该选择一个写入很快的数据库,LSM 类型的都可以,这里面保存原始数据。数据通过 ETL 后存入另一个 OLAP 数据库,这样起码做到了读写分离。
zhonj
2024-05-29 21:42:37 +08:00
@RedBeanIce #7 优化一个开发,你就会发现服务器有丰富的预算了,每个月 2 万块钱投入云服务器,速度不仅块,服务也有保障🤣,很多东西直接一把梭就好了,系统复杂性,可维护性都会有很大的提升😊
RedBeanIce
2024-05-29 23:07:29 +08:00
@xueling 非常感谢!我去试试!
RedBeanIce
2024-05-29 23:08:25 +08:00
@xianzhe 可惜我们没有往这一块考虑。

目前想的是,先把其他地方的数据捞取到 td 。
RedBeanIce
2024-05-29 23:08:32 +08:00
@zhonj ~~~~~
haimianbihdata
2024-05-30 01:09:31 +08:00
@qiyilai 物联网这块应该用的比较多的是一些时序数据库吧。doris 在这一块也好使吗?
levelworm
2024-05-30 02:47:12 +08:00
业务上数仓的需求是啥?选型和开发都是跟着需求走。
humbass
2024-05-30 03:40:06 +08:00
redis 队列缓冲下 --> TDEngine.
kk2syc
2024-05-30 06:35:39 +08:00
先考虑 raw_data 统一格式存储,确保不会漏掉任何一条上报数据。那么,剩下的都是小事情,哪怕不同需求、不同团队甚至不同数据库重构都可以。
RedBeanIce
2024-05-30 06:52:39 +08:00
@levelworm 如 append 所示

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1045147

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX