给准备做 BI 数据可视化的朋友一个建议

2020-03-14 10:20:24 +08:00
 levelworm

鉴于这里大多数都是有点编程能力的朋友,建议如果有能力选择工具,而不是让上面指派工具的话,不要用商业的可视化软件,比如 Power BI 或者 Tableau 之类的,而是用编程语言做。比如 Python + Dash。当然你是大公司就算了,大公司自己也没能力选择。

我没用过 Grafana 等通常是开发用的可视化工具,所以我不确定,但是如果是做商业数据可视化的,一般大家自然的选择就是 Power BI 或者 Tableau 之类的。这两个我都用过一段时间,深刻体会到受制于人的痛苦。

简单的来说,就是适合快速搭积木,但是可控性比较差,只能用对方提供的功能。Python + Dash 或者 JS + 类似的库(我不会 JS ),开始开发的时候比较慢,但是搭建好框架了就会快一些了。

8388 次点击
所在节点    Python
33 条回复
snw
2020-03-14 18:27:29 +08:00
说实在的,只有大中型的公司才需要搞 BI,中小企业搞 BI 只是老板自娱自乐。

BI 的前提是数据有质量较高的源数据,不然就是 GIGO (垃圾进垃圾出)。一套完善的信息化系统+购买或开发 BI 系统并实施+各环节合格的参与人员,这些开支不是中小企业玩得起的。后期你要应对经常变动需求的话,定制开发比通用解决方案支出更高。

中小企业做的只是会计整理数据,然后 IT 搞成好看的图表让老板看,但这只是可视化,只是 BI 的一小部分。
levelworm
2020-03-14 21:25:19 +08:00
@zhuangzhuang1988 @boshok 唉,谁说不是呢,所以周末还在老老实实撸 Tableau 呢。公司要用这个我也管不着呀。
qwjhb
2020-03-14 21:27:28 +08:00
我打算用 superset 有什么坑么
levelworm
2020-03-14 21:29:04 +08:00
@snw 中小企业我觉得也可以有高质量的源数据呀,就看重不重视了,当然大部分是不重视的。BI 基本上从 pipeline 开始,到可视化结束(我一般不把分析算在 BI 里头,毕竟有专门的 DA ),我觉得如果是做实业的那种中小企业,可能就自己搞搞就算了,因为的确数据量不大。但是如果是互联网企业,数据量可能并不小呀,比如我们公司就百来人,但是还是得配置齐全 BI 的人,不然数据量太大了压根没法搞。要不我理解错了,大小不是按照人数来的?
lithiumii
2020-03-14 22:09:52 +08:00
@levelworm 除了管理一个服务器,还要解决访问权限问题吧,Dash 带用户登录之类的功能吗?本来做分析的会分析就可以了,现在岂不是还得掌握 py 的 web 开发及运维?
samuel
2020-03-14 22:44:47 +08:00
对于信息化程度较高的中大公司(大型互联网公司除外,他们有能力造轮子),采购商业 BI 软件才是最高投入产出比的方案,自己造轮子最大的价值可能就是给技术团队练手了。用自己造的轮子,数据分析师可以自助完成数据建模么?可以自助做报表么?可以支持各种多维度分析么?

对于小公司而言,怎么方便怎么来吧,不过往往在这种公司里,BI 就是一个固化的统计报表,有新的统计需求就找研发写,不过这个跟 Powe BI,帆软什么的确实不是一码事了。
wittyfans
2020-03-15 01:44:34 +08:00
我之前的一个项目就是用的 Python+Dash,确实自由度比 power bi 和 tableau 高一些,你架好 server 后,公司内网打开你 IP 就能看图了,而且用 pandas 处理数据,直接套用 plotly 的格式,也很顺手。

但前期开发周期长,各种需求都提给你,需要一一实现,而且还会有导数据的需求,关键是这项目就我一个人做,从数据爬取、存储、处理、web 可视化,需求太多有点忙不过来,前期的时候经验不足,数据流程也有些混乱。爬取,保存,处理这之间的任务管理几乎没有,现在开始用 cron,后期打算上 airflow 管理。

不管是可视化,做 data analysis 或者 data science,少不了 data enginerring,把需求和数据的逻辑理清楚了,后期就简单了,可视化用这些商业工具还是自己写,我觉得都是一种偏好吧,根据自己的需求和技术能力选择,小公司数据不大,excel 也可以做 dashboard,只是你要是习惯了 pandas,就不想用 excel 了,前阵子接了个搞市场数据分析公司的面试,直接发了个 excel 过来,搞得我有都有点紧张。
snw
2020-03-15 01:46:22 +08:00
@levelworm
哦你说 IT 企业啊,那确实是另一回事了,毕竟 IT 企业利润率高,而且大部分业务数据本身就数字化了。

其他行业营业收入 2 亿的企业,年税前利润大概也就一两千万的数量级,上百万实施及培训+每年几十万上个传统 ERP 和业务系统(可能不给接口)已经挺心疼了,更别提每年再花几十万搞 BI。
wittyfans
2020-03-15 01:56:41 +08:00
@qwjhb superset 的用户权限管理有点难用,另外不可以嵌 python 代码
Justin13
2020-03-15 08:50:53 +08:00
powerbi 能自己开发可视化插件,扩展性上比 tableau 好很多
qwjhb
2020-03-15 20:36:00 +08:00
@wittyfans 这样的啊 我本来是看 superset 是 python 写的 用了 flask 以为 python 魔改会方便的 请问是什么原因导致不能嵌? 这样对我来说是硬伤 能开始前就打住也算幸运,多谢
wittyfans
2020-03-15 23:34:40 +08:00
@qwjhb 好像就是他们没这个打算
hotwow
2020-03-19 22:52:12 +08:00
@qwjhb Redash 可以嵌 python 代码

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/652691

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX