持续写入 10 亿条哈希到 MongoDB 其中一半重复先建 Unique 索引每次检测重复还是最后统一检测一次重复性能更好？

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 2835 days ago, the information mentioned may be changed or developed.

数据仓库类的应用，有 10 亿条 Hash 数据要插入到数据库中，就 Hash 一个字段，其中一半是会重复插入的，需求是最后 Hash 字段要唯一。
方法 1.如果一开始直接对 Hash 字段做 Unique 唯一索引，那么数据库自己检测是否重复了，但是随着数据量增大，每次检测重复的性能开销是否值得？
方法 2.插入完成后做一次去重处理，把唯一的 Hash 值导入到新的表里。
机器硬件配置一般，所以想问一下哪种方法性能上好一点。
另外 MySQL 和 MongoDB 哪个更适合做这项任务吗？

Hash

重复

字段

MongoDB

3 replies • 2018-09-26 15:17:12 +08:00