• 请不要在回答技术问题时复制粘贴 AI 生成的内容
whereabouts
V2EX  ›  程序员

持续写入 10 亿条哈希到 MongoDB 其中一半重复 先建 Unique 索引每次检测重复还是最后统一检测一次重复性能更好?

  •  
  •   whereabouts · Sep 26, 2018 · 1490 views
    This topic created in 2835 days ago, the information mentioned may be changed or developed.
    数据仓库类的应用,有 10 亿条 Hash 数据要插入到数据库中,就 Hash 一个字段,其中一半是会重复插入的,需求是最后 Hash 字段要唯一。
    方法 1.如果一开始直接对 Hash 字段做 Unique 唯一索引,那么数据库自己检测是否重复了,但是随着数据量增大,每次检测重复的性能开销是否值得?
    方法 2.插入完成后做一次去重处理,把唯一的 Hash 值导入到新的表里。
    机器硬件配置一般,所以想问一下哪种方法性能上好一点。
    另外 MySQL 和 MongoDB 哪个更适合做这项任务吗?
    3 replies    2018-09-26 15:17:12 +08:00
    fireapp
        1
    fireapp  
       Sep 26, 2018 via iPhone
    bulong
    fireapp
        2
    fireapp  
       Sep 26, 2018 via iPhone
    @fireapp 上面意外发错了🙀
    bloom 过滤器啊,2G 内存能搞定,使用加强版的
    luckychenhaha
        3
    luckychenhaha  
       Sep 26, 2018
    bloomfilter
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3651 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 42ms · UTC 04:45 · PVG 12:45 · LAX 21:45 · JFK 00:45
    ♥ Do have faith in what you're doing.