怎么去重 - V2EX

从某个电报群下载了几十 gb 的小说
想进行去重，各位大佬给个思路类似于这种

文件 1 文件 2 章节标题不一致
同时文件 2 和文件 3 可能缺胳膊少腿的
同时文件 1 ，2 ，3 可能每个章节内容都有少量不同

该怎么筛选出相对最完整的文件

文件 1

第一回　灵根育孕源流出　心性修持大道生
第二回　悟彻菩提真妙理　断魔归本合元神
···
···
第一百回　径回东土　五圣成真

文件 2

第 1 回　灵根育孕源流出　心性修持大道生
第 2 回　悟彻菩提真妙理　断魔归本合元神
···
···
第 39 回　一粒金丹天上得　三年故主世间生

文件 3

第 1 回　灵根育孕源流出　心性修持大道生
第 2 回　悟彻菩提真妙理　断魔归本合元神
···
···
第八十七回　凤仙郡冒天止雨　孙大圣劝善施霖

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。