适用于小团队的数据平台、数据仓库解决方案?

2019-03-09 12:31:01 +08:00
 cqcn1991

目前在做数据平台方面的工作,发现对大公司而言,方案其实都很固定了

但对于小团队来说,有什么好的解决方案?

早期主要是用来解决 BI,数据查询需求,可支持或不支持基于数据的机器学习项目


目前能想到的

但不知道好的 ETL 工具用啥,莫非用 airflow? MySQL 库是否就足够了?

3690 次点击
所在节点    问与答
28 条回复
LightLolo
2019-03-09 13:30:12 +08:00
ETL 工具可以尝试一下 kettle。
liprais
2019-03-09 14:56:45 +08:00
etl hive spark 搞搞就完了
可视化 superset / zeppelin / Jupyter 哪个简单用哪个
小公司小团队就别搞啥数据仓库了,工作量太大,搞个数据集市收工
ddkk1112
2019-03-09 17:01:56 +08:00
先确定数据分析支持的业务范围
自己采集数据后可以上传阿里云计算,或者直接阿里云采集并计算
数据展示用 flask+element,一周就可以成型
hilbertz
2019-03-09 17:14:20 +08:00
用 greenplum 就可以了
cqcn1991
2019-03-09 18:36:54 +08:00
@liprais 啥意思? hive/HDFS 的维护需要多少人?
cqcn1991
2019-03-09 18:51:24 +08:00
@ddkk1112 是要用阿里云的什么产品?
sampeng
2019-03-09 18:54:15 +08:00
直接上云…讲真。这些需求小团队肯定是上云成本最低。无论哪个角度
cqcn1991
2019-03-09 18:58:31 +08:00
@sampeng 啥意思? AWS red shift ?
sampeng
2019-03-09 19:01:57 +08:00
@cqcn1991 网络没问题。如果是海外用户肯定 aws 了。国内不好推荐…没用过…主要是数据的可靠性。腾讯和阿里都出过数据丢失…
sampeng
2019-03-09 19:02:58 +08:00
@cqcn1991 只是做离线数据分析,日志分析的。我觉得… aws 吧…
sampeng
2019-03-09 19:05:11 +08:00
最近也正好看到这块。小需求…小团队的需求。aws 都不需要 ec2。全家桶。几天成型。把数据灌进去就能用了
cqcn1991
2019-03-09 19:08:37 +08:00
@sampeng aws 除了 red shift 还用些啥产品呢?也是自己部署些应用?有啥推荐的教程之类吗?
sampeng
2019-03-09 19:13:43 +08:00
@cqcn1991 其它的没了解…不用部署应用…鼠标点点。给你入口,api 把数据灌进去。就能用了…文档很细致了。自己看官网教程吧。算一下费用能不能接受…都是按使用量收费,精确到请求次数。其实阿里云国内也可以。看你看重什么…
sampeng
2019-03-09 19:16:10 +08:00
@cqcn1991 aws 大计算和 ai 那么多产品呢。总有一个适合你。最不济的。连 elk 都给你准备好了。再高级点就是 emr 了。你要的 hdfs 和 spark。flink 啥的都有。你要的帮你维护机器和程序自己撸用例。
sampeng
2019-03-09 19:17:17 +08:00
但按你的最近需求。真的 elk 完全够用…几年十来万差不多了…
cqcn1991
2019-03-09 20:01:16 +08:00
@sampeng 谢谢大哥!
想问一下,关于数据平台,从几个人,到小团队到大团队的演化,有什么文档、教程吗?
比如你说的,用 AWS/阿里云 ELK 一直到 HDFS/Spark。因为我知道的就是自研 HDFS+各种自研产品...
fredliang
2019-03-09 20:11:25 +08:00
阿里云可以大概过一下 dataworks 的文档,写的已经比较完善了。如果没有很强的自建需求,从经济和研发成本来看公有云应该是最好的选择。
likuku
2019-03-09 22:32:52 +08:00
@cqcn1991 也可以直接打电话找 aws 售前技术支持咨询下,若比较合意,花点小钱买个 aws 技术支持服务,可以详细和专业大佬讨论方案。
sampeng
2019-03-09 22:33:52 +08:00
@cqcn1991 官方文档…没有之一。实在怕搞不定。都 support 服务。每月 10%支出。甚至会给你架构建议
sampeng
2019-03-09 22:34:55 +08:00
@cqcn1991 演化就是踩雷的过程。没雷了就演化结束

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/542760

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX