请问如何实现数据对比呢？

This topic created in 1509 days ago, the information mentioned may be changed or developed.

服务器中每天会上传一个 txt 格式的人员清单（应该每天就几万条），为了和数据库中的人员保持一致，需要按行逐一读取与数据库对比，比如数据重复，数据不存在等。。。个人感觉逐一对比这种方式过于复杂，每读取一行就要遍历一次用户表的数据，请问还有其他效率更高，更简单的方法处理吗？

读取

请问

对比

数据库

17 replies • 2022-05-31 22:59:34 +08:00

renmu123

May 31, 2022 via Android

都拿出来放到内存里来比

zhangshaohan

May 31, 2022

数据库中数据不多的话，查关键字段到内存后，与 txt 取差集

lybcyd

May 31, 2022

就几万条，量也不大，直接把数据库数据读成一个 k-v 的 map ，再把 txt 的数据读入一个 list ，直接检查 key 是否存在

Joker123456789

May 31, 2022

设置一个唯一约束的字段，插入的时候报错就说明存在了。

zx9481

May 31, 2022

@renmu123
@Geekerstar
@lybcyd
内存处理确实没想到，谢谢大佬！

Joker123456789

May 31, 2022

如果你只是想过滤掉存在的这条，也可以，用 on duplicate key update 就好了，插入时发现唯一字段冲突了，就只做更新操作

bxtx999

May 31, 2022

bloom filter

F281M6Dh8DXpD1g2

May 31, 2022

几万条写到数据库里面一个 join 完事

Macolor21

May 31, 2022

1. 先查询所有用户表 /关键数据到内存 1 次网络 I/O
2. 放入 HashMap/ BloomFilter
3. 再读取 txt 的所有数据，构建出 List 1 次文件 IO
4. 遍历 list 比对数据

因为几万条的数据量也不大，假设特别大了，就考虑用 io 来换内存空间了。

lookStupiToForce

May 31, 2022

"每读取一行就要遍历一次用户表的数据"
不是，你数据库里那张表的 join_key 不建索引的吗，居然查一次就扫一次全表？
建索引后 b+tree 匹配一条数据就只用查几次而已，树深度通常就 3 撑死了就 4 ，查几次由深度决定
这样几万条记录进去 nested loop join 撑死也就查(几万*4)次而已，再慢再慢的 io 也就几秒钟，哪还用加上其他开发啊？除非你数据库非常繁忙，这几秒钟的 io 都要排队跟其他进程均分。