如何便捷高效地处理 5000w 左右的离线订单数据

2020 年 8 月 31 日
 fakeJas0n

现在数据已经同步到 mysql,要根据每个订单的时间和收发货城市,推算出全流程各个节点的时间,包装后传给算法进行计算,有几个疑问

感谢各位 v 友!

1904 次点击
所在节点    问与答
8 条回复
wysnylc
2020 年 8 月 31 日
多少得你自己试出来,又没个基准值你搁这让网友们算命呢
boyhailong
2020 年 8 月 31 日
首先能计算出单个数据占用的内存吗? 5000w 数据内存总共多少,看下单台机器能承受不;
处理后的 json 数据多大?很大是多大?
wqzjk393
2020 年 8 月 31 日
对于大数据来说,思路就是索引分区和 etl 了 简单说就是搞点辅助表和汇总表,不要直接拿原始明细表来跑业务
shoaly
2020 年 8 月 31 日
随便说一个, 先把 5000w 订单按照城市拆分, 这样至少多线程那一套就可以用上了....
594duck
2020 年 8 月 31 日
5000w 这个量级,应该放大数据跑了。

推荐观远数据专门解决的也不贵。

etl 先把数据抽到超宽表在做计算。并行计算 hadoop 强项
CODEWEA
2020 年 8 月 31 日
很简单,一秒钟就行,搞一个 1T 内存的服务器,随便写
594duck
2020 年 8 月 31 日
@CODEWEA 你确定单台 1TB 内存有用?

我宁可上 3 台 256G 也不要单台 1TB
ijustdo
2020 年 9 月 1 日
给你举个例子 单机就可以搞定

每个订单存为:

[订单 id]_[发货 citycode]_[发货日期]_[收货 citycode]_[收货日期].json



------------------------


分目录:
------------------------
收货城市 citycode 分组目录
时间分组目录[日期]

发货城市 citycode 分组目录
时间分组目录[日期]


每个过程 cityecode 分组目录
时间分组目录[日期]


------------------------
你自己看这个问题是不是不是很简单了

大数据的分区 也是 hadoop 上目录 + 列式存储 没撒


文件遍历统计就搞定, 不急的话一个单字一个单字来, 一个单子一个单子的来都行

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/702866

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX