各位大佬们征求意见

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2205 天前的主题，其中的信息可能已经有所发展或是发生改变。

1. 菜鸡一枚, 接到一个数据迁移的需求
2. 新功能重构上线, 要把老库里面的表数据迁移到新库的表里, 两张表字段大体上一样也有一些区别, 表里面大概 40 个字段
3. 数据库是 mysql, 老库的数据量大概在 400 多万条的亚子
4. 现在正在考虑方案, 奈何之前没接触过类似的功能, 找 v2 大佬请教, 用什么样的方式比较好, 是用代码实现, 还是直接脚本之类的 ? 如果可以的话可以说的稍微具体点

迁移

老库

表字段

菜鸡

31 条回复 • 2019-10-21 13:28:11 +08:00

JustinJie

2019-10-18 11:23:07 +08:00

求大佬临幸 ~

JustinJie

2019-10-18 11:29:49 +08:00

我订

dswyzx

2019-10-18 11:35:11 +08:00

才 400w 啊.用代码的话只要别一条一条处理也不怕

JustinJie

2019-10-18 11:36:54 +08:00

@dswyzx # 3 不一条一条处理 ? 代码不就 for 循环吗 ? 还有什么方法 ?

zgzhang

2019-10-18 11:39:52 +08:00

我能想到的步骤如下：
1. 新老表双写，读老表
2. 数据迁移，400W 条数据迁移应该很快
3. 抽样对比数据，看下是否 OK
4. 灰度读数据到新表
5. 老表下线

telami

2019-10-18 11:40:15 +08:00

一般来说三种方式：
1、sql 脚本，能用 sql 处理的，一定用 sql，成本最低。看你的数据是不是经过大的处理，如果是要用到外部一些数据，这种就不推荐了。
2、python 脚本，好处是想咋写咋写，400 万数据也不多，用完一次就扔掉，不用重复上线。
3、代码，代码的话看场景，设计多个表，甚至需要一些外部 api 数据处理，这就只能用代码了，但是同步数据得上线，上完线还得删，就比较麻烦。

CoCoMcRee

2019-10-18 11:41:31 +08:00

这么点数据量, 找个 NaviCat 之类的工具同步下就行了吧

taotaodaddy

2019-10-18 11:42:34 +08:00 via Android

如果数据处理规则很简单就用 sql
如果比较复杂就 python 走一波，用完即扔

taogen

2019-10-18 11:47:51 +08:00

用脚本或者代码，对比两个库，生成最终的 SQL 文件。新库中，清空对应的表，执行 SQL 文件。

xxdd

2019-10-18 12:15:02 +08:00

写 sql 脚本吧这个迁移应该不涉及数据比对

JustinJie

2019-10-18 13:45:37 +08:00

@zgzhang # 5
1. 新功能上线貌似就没有使用老表了, 新功能没有向之前表插入
2. 数据迁移怎么弄 ? 我主要就是想问下这个怎么实现之前没有弄过
3. 抽样对比数据到时候肯定是要测的
4. 灰度是个啥意思 ? 我研究下
@telami # 6
1. 我暂时只想到了一个用程序读取老表然后插入新表的办法, sql 脚本暂时还不知道如何去写
2. python 脚本不怎么会没怎么研究过我这边是弄 Java 的
3. 是的我也是这么想的代码比较麻烦而且我只想到循环处理肯定耗时性能也不好
@CoCoMcRee # 7
好的我研究下同步工具但是我两个表的字段名称不一样还有些字段不同不知道能不能处理
@taotaodaddy # 8
好的感谢
@taogen # 9
你的意思是用代码生成对应 sql 语句然后去执行 ? 我也有这么考虑的
@xxdd # 10
嗯都比较推荐 sql 脚本我向下数据比对这个是什么意思 ?

JustinJie

2019-10-18 13:49:03 +08:00

我顶 !
再次召唤大佬~

JustinJie

2019-10-18 13:59:57 +08:00

再顶 !

JustinJie

2019-10-18 14:18:56 +08:00

大佬们, 周五已经下班了吗~

wuwukai007

2019-10-18 14:21:11 +08:00

pandas read_sql

pandas to_sql
注意缺失值处理一下，应该蛮快的。

JustinJie

2019-10-18 14:23:39 +08:00

@wuwukai007 # 15 Python ?

我先看下

markgor

2019-10-18 14:53:52 +08:00

表有區別就不能跑同步了，
就算是 dump 出來，你也 source 不了進去。
所以老老實實寫腳本。
具體點就是：
1、寫腳本，建測試庫
2、測試腳本用測試庫的資源。
3、和後端商議個時間做切換。
4、鎖庫腳本同步數據
5、後端切換數據
6、測試下
7、休息

JustinJie

2019-10-18 15:20:04 +08:00

@markgor # 17

大佬懂我
不过我还有点疑问就是我一条语句写一个 insert into 这样的行吗 ?
还是有更好的什么写法和形式吗 ?

lazyfighter

2019-10-18 15:25:24 +08:00

kettle

JustinJie

2019-10-18 15:31:18 +08:00

@lazyfighter # 19

好的我看下

MorpheusAnchor

2019-10-18 15:38:50 +08:00

做过类似的几十个表吧逻辑处理比较复杂用 python 一条一条写的，但是可复用，因为是公司的产品，部署出去的

zgzhang

2019-10-18 16:10:17 +08:00

@JustinJie 你的服务如果在迁移期间可以停止服务，那同步数据用脚本还是 sql 都可以。但是你确定迁移期间没有数据修改的问题吗？

markgor

2019-10-18 16:11:15 +08:00

@JustinJie 沒時間要求就一條條，有時間要求就嘗試讀 N 條，插入 N 條異步操作。

JustinJie

2019-10-18 16:55:07 +08:00

@zgzhang # 22
服务在晚上发布, 一般都没有什么用户的了, 应该是没有问题的

@markgor # 23
OK 我懂了应该没有时间要求
那我是不是就 Java 代码读取数据, 拼接成 sql 生成脚本这样 ? 还是有好的方式呢 ?

markgor

2019-10-18 17:22:40 +08:00

@JustinJie java 不清楚，我是直接 PHP 跑腳本
主進程讀 1K 條就 fork 個子線程出來跑插入，
然後插入失敗就寫個 log （完整的 SQL 語句），
最後在跑一次失敗 log 裡面的記錄。

因為是一年前的事，大概就這些，
你的環境我不清楚，我當時是異地的，數據量不算大，好像幾十萬筆記錄，

注意下網絡超時和新數據庫的格式就可以了（ mysqlmax_allowed_packet,還有 MYSQL 特性是否一致）。
對了，mysql 還有個 max_connections。

實話實說，你不缺時間的就一條條跑，失敗的記錄起來，然後打牌的打牌，喝酒的喝酒，跳舞的跳舞，每個一會看看有沒出錯就可以了。最後跑完就看看失敗的 log 裡面有沒 SQL 語句記錄，數量不多直接就在新數據庫裡運行裡面的語句。

good luck

lufeng08

2019-10-18 17:32:54 +08:00

做过类似的，一个论坛重构，几千万条帖子，几亿个回复，跨服务器迁移，写接口实现，然后写 shell 脚本请求接口，每页多少条数据可以配置，先每页 100 条执行，根据测试结果慢慢往上加，比如加到 2000，400 万条数据，每次迁移 2000 条，也就 2000 秒执行完毕。

justseemore

2019-10-18 18:50:43 +08:00

先双写啊,新库带老库的主键 id 插入到新库,然后查新库最小 id, 然后 while(true) 老库主键作位移,一次 1000 ,然后新库, insert 批量插入, 保你 5kw 数据没问题

CoooooolFrog

2019-10-18 19:23:56 +08:00

如果允许服务短时间不可用，简单点直接 mysqldump。
如果不允许服务不可用，双写表，数据同步完以后清理旧表，全部迁移新表。

lufeng08

2019-10-19 12:14:57 +08:00

有句话不知当讲不当讲，我们做了一个提升新手生产力的脚手架，也开发了好多应用上架了，都免费了，你可以参观下，可以拿来二次开发
https://www.gepardshop.com/appstore

JustinJie

2019-10-21 13:08:00 +08:00

@markgor # 25
好的我考虑的是直接拼接成 sql 脚本给 dba 执行, 程序跑, 记录失败 log 也很有必要的样子

@lufeng08 # 26
大佬, 膜拜 ! 我去研究下

@zpfhbyx # 27
关键我两张表好些字段不一样 , 不只是名称, 这样也有用的吗 ?

@CoooooolFrog # 28
好的接收到了大佬 ~

@lufeng08 # 29
再次感谢 ~

justseemore

2019-10-21 13:28:11 +08:00

@JustinJie 自己逻辑映射啊,最后数据批量插入,没问题的,实际跑过,线上直接 rename 完事了如果不同实例,停双写或者反向双写,然后直接上代码就可以了,验证数据没问题,直接停双写

各位大佬们 征求意见

各位大佬们征求意见