每日产生 1440 万条数据，如何做到查询效率在百毫秒内体验？

现行需求分析

每隔十秒产生1万条数据，每一条数据约260字节。
数据产生时间9:30－11:30；13:00 －15:00。在这个时间段内一天数据量约为：$1万*6*60*4 = 1440万条，约3.5GB数据$。长期预估1-3年内产生：3.7TB数据。
已产生数据非常小量更新操作，可以任务数据库无更新操作（如update ，delete），只有插入、查询操作（insert 、select）
无复杂查询。如：group by ，join
查询操作并发度不高，但查询效率严格控制在十毫秒到几百毫秒内。
对写数据库操作要求高，达到10秒内完成插入1万条数据
每条数据字段都是数字或段文字，没有复杂字段。
选择什么样物理服务器＋数据库＋数据架构？如dell r730+mysql＋分库分表？

em70

2015 年 7 月 9 日

每个写入时间段，创建一个新表来接受输入，尽量少的索引，来保证插入效率。如果觉得效率还不够，就每一天的每一个小时都创建一个表接受插入。

每天15点开始执行数据汇总操作，将当天的每个表数据汇入总表，加尽量多且必要的索引。

如果存在大量重复记录，可以去重，然后建立一个计数器表，统计每一种记录的次数即可

数据库不建议自己服务器搭建，用阿里云RDS，性能超强

zhanglp888

2015 年 7 月 9 日

我的做法时，根据时间创建新表，我当时是一天一个表，加必要的索引
搜索时，如果搜索某一天的话，就搜索那天的表，
如果搜索两天以上，就根据时间范围，把那几天的表的组合起来建立临时表，再去搜索
没有你的数据这么多，所以没法给你具体的结果

scys

2015 年 7 月 9 日

考虑自己有多大的带宽，如果1000MB/s的带宽，可以直接考虑同步到服务器上，然后让云去烦恼。
如果是自有服务器，考虑服务器群来处理，其实就是分表。

hbq

2015 年 7 月 9 日

@em70 你就是每天产生的数据，最终都会汇总到一个大表中，这样日积月累这个表会很大很大，我想这个总表是不是在逻辑看作一个表，在实际物理存储的时候是分成小表存储，其实就是一个分表操作。但是做成一个总表，在以后查询效率控制在百毫秒内，我觉效率会不好。但是每天建一个表，就是每天产生的表数据量为1440万，以后查询时候，按照时间查询，找到对应的表，再到对应的字段，这样效率应该可以控制在百毫秒内。在全局上看，我还不太清楚这两种方案好与坏

scys

2015 年 7 月 9 日

@hbq 不知道你目标是50~100ms还是100~300ms，这两个数量级是两个坑
定个目标咯，我觉得我没有对50ms内的数量级做任何建议，这个太挑战我能力了。

你现在是做架构方案，还是改造？

webflier

2015 年 7 月 9 日

如果你存的是时间序列之类，直接append文件，每条记录固定长度，查询的时候自己去算offset，然后读出来。

em70

2015 年 7 月 9 日

@hbq 计算机永远是时间换空间,空间换时间的游戏,要想查找快,就需要占更大的空间,最有效的加快查找办法是做反向索引,google上千亿页面怎么做的几十毫秒查询的呢,他是先把所有可能的关键词都做了预先的计算,把关键词对应的搜索结果已经缓存下来了,查找的时候就直接调用结果,不需要再去遍历总表了.

你是否可以提前预判到可能被查询的关键词,利用15点到第二天9点这段时间全部穷举,缓存下来.写到一个表里.

akira

2015 年 7 月 9 日

稍微计算了一下，每秒大约是250kb的数据写入，这个对大部分提供数据库云服务商来说，都不是什么难度。除非你自己能handle，不然不是很建议自建数据库。

查询的效率依赖你的sql语句以及索引，这个只能具体分析了。例如如果你写个select * from table;想100ms以内返回当日的所有数据，神仙都帮你不了。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/204475

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.