千万级别的数据如何做复杂的聚合计算?有没有轻量级的开源框架推荐?

2018-03-13 10:08:20 +08:00
 hbsfxlz

说下详细描述吧,比如一个参与记录表,可以通过一次聚合获取 A 用户参与了多少次,如何在第一次的聚合结果上再次聚合,得出参与多少次的有多少人这种结果???有尝试过 es 去实现,发现 es 桶聚合分页也不支持,更不谈这种对聚合结果聚合的操作,有 es 大佬知道这种操作可以指点一波。谢谢

5206 次点击
所在节点    Elasticsearch
16 条回复
hbsfxlz
2018-03-13 10:09:15 +08:00
人工自顶一波
hbsfxlz
2018-03-13 10:10:42 +08:00
为什么在首页看不到帖呢
sunchen
2018-03-13 10:15:42 +08:00
mpp 随便选一个
hbsfxlz
2018-03-13 10:17:44 +08:00
@sunchen mpp ???是什么
enenaaa
2018-03-13 10:20:01 +08:00
pandas 可以实现。但不太适合线上处理。
EmdeBoas
2018-03-13 10:20:23 +08:00
kylin 了解一下,是离线预计算,而且很不轻量...速度还是 ok 的
hbsfxlz
2018-03-13 10:24:16 +08:00
@enenaaa 要求秒级实现,pandas 导入 2KW 数据的速度已经接受不了了
@EmdeBoas 在看,谢谢,其实理想的是基于 es,可惜 es 这个效果我没实现出来
ConradG
2018-03-13 10:30:19 +08:00
千万还要秒级,安心流式计算搞起
jyf
2018-03-13 10:34:23 +08:00
哈 你也踩到 es 的坑啦 这个数量级随便用啥了 只是别有这种坑就行
hbsfxlz
2018-03-13 10:40:08 +08:00
@ConradG 业务需求,没办法,用 lucene 收集器实现过,大概 3KW 数据 3 到 6 秒,就怕数据量再大,算法会出问题
@jyf 是啊,没想到 es 这么好的搜索引擎不支持,也有可能是自己不会吧,只能期望 v 社大牛指点一波了
jasonslyvia
2018-03-13 10:40:23 +08:00
druid.io 看看
EmdeBoas
2018-03-13 10:46:45 +08:00
我还是详细说一下 kylin 吧,免得你掉坑里....这个速度很快(因为是预计算),所以倒不怕数据量,(百亿级数据秒出,我刚去线上试的...),但是由于是预计算,随着你聚合维度的增加,数据量会指数级的膨胀!再一个,这东西搭起来和维护可是不轻松的.....
hbsfxlz
2018-03-13 10:50:07 +08:00
@EmdeBoas。。。。谢谢提醒。估计是使用不上了--
fireapp
2018-03-13 11:13:20 +08:00
kudu + impala 直接撸 sql, 千万级别秒级没问题
zhengxiaowai
2018-03-13 11:16:57 +08:00
spark 不错
BeginMan
2018-03-13 13:17:18 +08:00
druid 做计算引擎,superset 做 BI。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/437494

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX