每天 60w 日活的 app 后台数据分析怎么做合适.

2017-05-25 17:05:18 +08:00
 snail00

公司之前没有后台, 后台从 0 开始, 就我一个人.

目前服务器资源:

凌动双核 cpu 1.8g 主频,4g ddr3 800 内存, 500g 机械硬盘

亚马逊免费 rds 一台, 1c 1g 20g 空间

后台写了报文收集和简单的入库查询.

现在用户慢慢更新了应用.

每天报文量 18w+, 占用硬盘空间 20M 左右, 数据入库 60w+条, 统计的日活只有 4w 用户, 还在一直增加.

今天算了下, 按三分之一用户会更新新版来算, 这么搞很快就死了.

现在的思路是:

  1. 压缩单用户的数据
  2. 按月分表, 这也是单表千万数量级
  3. nosql 或索引
  4. 冷热数据分离, 单独搞个结果表.

现在问题来了, 有没有更好的办法, 资源比较有限 或者说做 100w 日活的后台统计, 大概需要什么什么规模的计算资源, 就亚马逊的产品来说.

6485 次点击
所在节点    程序员
32 条回复
liprais
2017-05-25 17:48:08 +08:00
你想要分析啥
vus520
2017-05-25 17:53:56 +08:00
60W 日活已经是不错的量级了。

楼主,我们有类似的业务,日活几百万。产品做了两年多,基本上实现了一个友盟的常见功能。我个人准备找机会商业化,做开源的友盟也好,企业服务也好。如果楼主有兴趣,我们可以详细聊聊。
mengzhuo
2017-05-25 17:56:24 +08:00
可以统统塞到 ES 里面,以后慢慢分析
snail00
2017-05-25 17:59:37 +08:00
@liprais #1 日活, 启动, 打开, 点击 等指标
snail00
2017-05-25 18:00:32 +08:00
@vus520 #2 这个之前就是用的三方的, 现在想自己做, 所以招了我
snail00
2017-05-25 18:01:30 +08:00
@mengzhuo #3 我在上家公司用的 es, 这家公司服务器资源少, 不好上.
vus520
2017-05-25 18:35:24 +08:00
@snail00 懂了,Redis、ES、时序类数据库都可以,纯 Mysql 估计会有一些压力
sampeng
2017-05-25 18:49:56 +08:00
没有服务器资源,一切都是聊闲天。。。。
友盟就够用了。。为何还要自己做呢。。。
liprais
2017-05-25 18:57:06 +08:00
果断申请预算上 hadoop ,以后需求会越来越复杂,现在的资源是支撑不了的
lavande
2017-05-25 22:31:23 +08:00
不太懂技术……不过直接用 google analytics 不行吗?
snail00
2017-05-25 22:40:21 +08:00
@sampeng #8 自己玩用户画像, 更细的数据分析.
snail00
2017-05-25 22:41:17 +08:00
@liprais #9 从 0 开始一个坑一个坑踩吧, 先把现在的需求实现了才能说以后
snail00
2017-05-25 22:42:10 +08:00
@lavande #10 有数据了自己玩的花样就多了, 数据放别人手上, 有个政策变动还是挺被动的.
SlipStupig
2017-05-25 23:04:54 +08:00
分析日志 ELK,做数据聚合 spark....
echotpq
2017-05-25 23:28:56 +08:00
数据库和 web 等分离,优化表结构,mysql 和 redis 结合
snail00
2017-05-25 23:29:56 +08:00
@SlipStupig #14 这个需要服务器资源, 现在只能收集日志先存着, 以后洗数据.
snail00
2017-05-25 23:31:20 +08:00
@echotpq #15 明天尝试, 对查询数据静态化处理, 冷热数据分离. 查询的表和报文存的表分开.
ericls
2017-05-25 23:49:24 +08:00
扔进 elk 再说
fatpa
2017-05-26 02:02:46 +08:00
讲道理,这个数据量如果不做用户画像之类的事情,只是普通的日常用户行为统计,rsync 和 awk 基本就解决了。

痛点应该想想百万级别日活的服务器资源怎么解决吧
dangyuluo
2017-05-26 02:58:30 +08:00
Kibana,数据可视化不错。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/363790

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX