数据任务流水线如何设计?供做数据开发的同学们参考。

2022-12-30 15:40:29 +08:00
 BrightLiao

分析数据任务的各个步骤,可以发现需要设计三条数据流水线:

一、定期(如每天)自动触发的数据任务流水线,它将完成定期的数据接入,清洗,指标计算,宽表构建,宽表输出这一系列任务。这一流水线通常是端到端可输出指标结果的流水线。

二、首次全量数据接入任务流水线,用于第一次将全量数据接入到数据平台。它应该是手动触发的。

三、与定期自动运行的流水线相同的,但只能手动触发运行的一条流水线。这一流水线的引入是必要的,因为它可以很好的应对日常数据开发运维工作。

如何实现?详情请移步: https://brightliao.com/#/NDE2MWE1

974 次点击
所在节点    程序员
1 条回复
jones2000
2022-12-31 22:33:27 +08:00
太简单了。
1. 不同数据库( DB2, oracle ,mysql 等数据库)之间的数据同步,转档。
2. 原始数据格式化(原始数据包含 PDF, word ,excel 等等, 如果上市公司财报)
3. 双路实时数据采集,一天最少 2T 的交易数据,实时入库,对接各种分析指标, 实时预警,自动触发交易策略下单。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/905606

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX