几千,1-2 万个 csv 格式的压缩文件，怎么快速解压入库到 pg 库？

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 773 days ago, the information mentioned may be changed or developed.

解压文件内容为：第一行存放是表对应的名称，剩下的每行存放的是对应值。目前每个解压下来的文件有 1w 行数据，第 1 行存放表头，其他存放对应的数据。目前用的 java ，mybatis 做解析入库处理，每个文件要花费 4-5s 才能解析入库到 pg ，最坏的情况大概要 10s 之间

9 replies • 2024-04-19 14:16:52 +08:00

blacklinux

Apr 18, 2024

转换成 sql 语句执行

sagaxu

Apr 18, 2024

1. 批量插入 + 开启 pgsql 的 reWriteBatchedInserts ，单个文件控制在 1 秒左右
2. 使用多线程，不同的表并发插入

luozic

Apr 18, 2024

分成 3 部分：1.解压读取解析 csv
2.批处理
3.入库
用火焰图和时序看一下是哪部分慢呗。插入 pg 批处理肯定没这么慢（ pg 的 IO 没那么差的情况下）

lolizeppelin

Apr 18, 2024

pg 直接 copy csv 啊,为什么转 sql

xingzi10000

Apr 18, 2024

ok,谢谢各位，我先试试看

HOMO114514

Apr 18, 2024

COPY 语句直接干

catamaran

Apr 18, 2024

mysql 可以直接导 csv ，pg 不行？

yjhatfdu2

Apr 18, 2024

find . -name '*.csv.gz' | xargs -I {} -P 4 bash -c "gzcat {} | psql -c 'copy test from stdin csv header'"
P 是并发，可以开高点

cloverzrg2

Apr 19, 2024

下载了什么社工库吗