适用于小团队的数据平台、数据仓库解决方案?

2019-03-09 12:31:01 +08:00
 cqcn1991

目前在做数据平台方面的工作,发现对大公司而言,方案其实都很固定了

但对于小团队来说,有什么好的解决方案?

早期主要是用来解决 BI,数据查询需求,可支持或不支持基于数据的机器学习项目


目前能想到的

但不知道好的 ETL 工具用啥,莫非用 airflow? MySQL 库是否就足够了?

3697 次点击
所在节点    问与答
28 条回复
wc951
2019-03-10 00:34:36 +08:00
cdh 社区版,etl 用 kettle
qwingmix
2019-03-26 17:08:39 +08:00
我们是一致用 GA+google tag manager, 我觉得日活在 10W 以下的基本够用,各种实时啊,聚合啊,埋点专题分析啊,都足够了。python 写脚本定制一些专题,导入到本地数据库,也足够了。 最后用 superset 展示。
其实你上面也写了这个方案。
cqcn1991
2019-03-26 17:23:50 +08:00
@qwingmix 话说你们数据怎么导入的? bigquery 导出?

用的什么数仓?直接 postgre 备份主库?还是?
qwingmix
2019-03-27 08:40:58 +08:00
@cqcn1991 直接通过 python 脚本导出到 mysql,复杂一点的,就先在 python pandas 里面做计算,计算完再导出到 mysql。主要是 python 里面找到一个可以无抽样导出的轮子,轻松解决 GA 数据结果抽样的问题。
cqcn1991
2019-03-27 12:48:39 +08:00
@qwingmix 恩,那 GA 的数据咋进去的?先进,big query 吗?
qwingmix
2019-03-27 14:01:19 +08:00
@cqcn1991 啊? GA 的,就用 GTM 在 web 和 app 里面调用 GA 的 api 埋点啊。
cqcn1991
2019-03-27 18:50:33 +08:00
@qwingmix 那 GA 的原始数据你们拿回来吗?
qwingmix
2019-03-28 08:40:21 +08:00
@cqcn1991 仅仅部分会拿,比如 event label 里面塞满了我们自己的维度组合,GA API 拿到本地后分割开来。 一般都不拿原始数据。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/542760

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX