千万级别的数据如何做复杂的聚合计算？有没有轻量级的开源框架推荐？

说下详细描述吧，比如一个参与记录表，可以通过一次聚合获取 A 用户参与了多少次，如何在第一次的聚合结果上再次聚合，得出参与多少次的有多少人这种结果？？？有尝试过 es 去实现，发现 es 桶聚合分页也不支持，更不谈这种对聚合结果聚合的操作，有 es 大佬知道这种操作可以指点一波。谢谢

EmdeBoas

2018-03-13 10:20:23 +08:00

kylin 了解一下，是离线预计算，而且很不轻量...速度还是 ok 的

hbsfxlz

2018-03-13 10:24:16 +08:00

@enenaaa 要求秒级实现，pandas 导入 2KW 数据的速度已经接受不了了
@EmdeBoas 在看，谢谢，其实理想的是基于 es，可惜 es 这个效果我没实现出来

jyf

2018-03-13 10:34:23 +08:00

哈你也踩到 es 的坑啦这个数量级随便用啥了只是别有这种坑就行

hbsfxlz

2018-03-13 10:40:08 +08:00

@ConradG 业务需求，没办法，用 lucene 收集器实现过，大概 3KW 数据 3 到 6 秒，就怕数据量再大，算法会出问题
@jyf 是啊，没想到 es 这么好的搜索引擎不支持，也有可能是自己不会吧，只能期望 v 社大牛指点一波了

EmdeBoas

2018-03-13 10:46:45 +08:00

我还是详细说一下 kylin 吧，免得你掉坑里....这个速度很快（因为是预计算），所以倒不怕数据量，（百亿级数据秒出，我刚去线上试的...）,但是由于是预计算，随着你聚合维度的增加，数据量会指数级的膨胀！再一个，这东西搭起来和维护可是不轻松的.....

hbsfxlz

2018-03-13 10:50:07 +08:00

@EmdeBoas。。。。谢谢提醒。估计是使用不上了--

fireapp

2018-03-13 11:13:20 +08:00

kudu + impala 直接撸 sql，千万级别秒级没问题

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.