如何在分钟级别里处理 50G 数据？

2017-05-14 17:26:16 +08:00

ppn029012

目前有一个需要处理 500 万条目大约 50GB 数据，数据目前放在 mongoDB 上，每次处理需要读出来，处理再写入，耗时在 5-6 个小时不等。请问目前市面上有什么样的云端数据处理框架可以帮助我能在分钟级或者秒级处理这些数据吗？

3378 次点击

所在节点

12 条回复

lynnworld

2017-05-14 17:28:08 +08:00

为什么每个条目这么大？

ppn029012

2017-05-14 17:31:28 +08:00

@lynnworld 文本数据

ETiV

2017-05-14 17:45:30 +08:00

这么大数据，还要这么短时间。。。
要是硬盘给力的话，最快的处理方式恐怕就只有 rm -fr 了

billion

2017-05-14 17:50:51 +08:00

如果你的 MongoDB 用的是阿里云，那么你可以试一试 MaxCompute

dexterzzz

2017-05-14 18:01:45 +08:00

用内存，列存储数据库

Kilerd

2017-05-14 18:25:07 +08:00

50GB /60 s = 1G/s
就算是连续读写这个速率都不低啊，还要进行处理

wanglaihuai

2017-05-14 18:31:40 +08:00

@ETiV 哈哈哈哈，这个最快了。

powergx

2017-05-14 18:31:51 +08:00

ramdisk 可以，延迟 /吞吐量能达标。云端不可能有

rrfeng

2017-05-14 18:34:10 +08:00

如果还会增长的话趁早改 Hadoop 平台，各种选择
如果永远这么点儿的话 MongoDB SSD 多加内存也是可以的，但是要注意主机网络带宽（云主机内网带宽），一定会成为第一个瓶颈。解决方案是分片

kaneg

2017-05-14 18:37:14 +08:00

hanadb

chocolatesir

2017-05-14 18:56:04 +08:00

或许 conoha 可以。。

ihuotui

2017-05-15 13:15:07 +08:00

业务是怎样？单数据量有什么好说

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.