如何确保移动硬盘的大量数据不会损坏?

2022-07-26 05:42:32 +08:00
 kerrspace

小弟有一个问题,假设我不信任网盘(倒闭或者加密压缩文件都被乱杀和谐,百度云盘经常干这事)和类似群晖(故障毁盘,扩展能力有限)这样的软件,我就使用最原始的手工的办法,每一个移动硬盘都准备一个备份盘,譬如说 ABCDE 五个硬盘,我就有完全对称的 abcde 五个备份盘。

现在问题来了,这样备份肯定隔一段时间就要确定数据有没有损坏,譬如对比 A 和 a ,如果 A 有坏道导致数据损坏,就 copy a 的内容到 A 。如果长时间不 check 肯定最后 a 和 A 都要损坏,备份就失去意义了。所以要经常比对

大家有什么好的对比检测文件是否有损坏的方案吗?

譬如说我全部打包成压缩包,只要压缩包能正常解压能不能说明文件一定没有损坏? step 1. 统计 A 中能正常解压的压缩包 step 2. 统计 a 中能正常解压的压缩包 step 3. 把属于 A 但不属于 a 的压缩包从 A 复制到 a step 4. 把属于 a 但不属于 A 的压缩包从 a 复制到 A

5894 次点击
所在节点    程序员
59 条回复
leeg810312
2022-07-26 12:41:29 +08:00
云平台也只是 3 个备份,sla 是 n 个 9 ,不知道 OP 是要搞什么业务,要 100%?
kerrspace
2022-07-26 13:13:22 +08:00
@leeg810312 一些丢失了再也找不到的文件 譬如说我用爬虫一直在监控很多论坛上对一些社会议题的讨论(譬如说女拳,唐山事件,生育率大跌等等),然后自动保存下来。现在这些原始材料大部分都被冲水、和谐了。所以如果文件丢失或者损坏,根本没办法在其他地方找到。这不是那种存点电影之类替代性强的。
xyjincan
2022-07-26 13:32:13 +08:00
操作系统读写文件时硬盘有校验,你可以打包为 zip ,然后计算 sha256 ,保存为 txt ,放在同目录,需要检查时,重新计算 sha256
tril
2022-07-26 14:04:11 +08:00
对于静默损坏,btrfs 和 zfs 都支持主动报告错误,巡检整个文件系统只需要一行命令,所以判断文件是否有错误不需要你重新想办法做校验。

至于发现了错误如何修复,r5 和 r6 阵列也可以巡检并自动修复错误的文件。当然,你想让硬盘离线保证安全的话,每次巡检文件系统之后如果发现错误手动替换错误文件也是可以的。
datoo
2022-07-26 14:43:45 +08:00
@kerrspace 你这是国安来钓鱼的吧。。。
exocell
2022-07-26 15:47:25 +08:00
直接备份到网盘就可以了。增量备份,你说的百度删压缩包我从来没遇到。
在网盘备份了上 TG 的压缩包。特殊符号中文密码 16 位加密。压缩完选择自测试。
网盘如果要跑路了,挂个机下了换个平台。移动硬盘数据坏了就网盘拉那次增量下来就行
imsoso
2022-07-26 15:58:35 +08:00
备份、备份的备份、备份的备份的备份😄
testver
2022-07-26 16:34:44 +08:00
想太多了,一份 nas ,一份自己 pc 硬盘,一份光盘刻录机刻盘,一般家庭用足够了。
yvescheung
2022-07-26 17:34:41 +08:00
@kerrspace 京东威联通自营现在就有 24 盘位的 NAS 卖,你要是还嫌不够,可以联系厂家,只要你有钱,几百个硬盘的阵列他们都能给你做出来
https://pic3.zhimg.com/v2-a05ad4545324fc1d2f4fb9d3bd1b47aa_1440w.jpg?source=172ae18b
bigdoing
2022-07-26 17:40:36 +08:00
@kerrspace 加密存网盘,用强加密,2048 位密码,加密软件,不是 rar 7zip
懒得搞,就用 oss ,或者阿里云 ecs ,
维护简单
spediacn
2022-07-26 17:58:11 +08:00
我也觉得,楼主是在自己造一个 RAID1 ,用一个现成的小号 NAS 就行了,
非得在安全一点,配置一个异地同步就行了,比如两个地方各自放一个 NAS ,然后 zerotier 组网,配置一下主从和同步策略,扔在那儿他就自己同步了,不需要你操心过程。
lookStupiToForce
2022-07-26 18:40:59 +08:00
转存数据作离线冷备份的话
现在有用蓝光盘作冷备份的,你可以关注一下
硬盘说是最长才 20 年就消磁,但归档级蓝光盘可以达到 50 年到更长
https://www.zhihu.com/question/29443987
opengg
2022-07-26 20:32:48 +08:00
加密,恢复卷,上传到 oss 啊,冷存储价格很低。
BurneJones
2022-07-26 21:37:58 +08:00
加密后上传到 GoogleDrive/onedrive/dropbox/blackbaze/mega/pcloud/box/yandex cloud/Ali/baidu/teracloud 等等各家网络存储放一份。。。
nVic
2022-07-26 22:09:08 +08:00
其实你的担忧有道理,我有一个合作的承包商在做**堡项目,这个项目在网上很容易搜到,总价很高,项目就包含了超大规模冷备,单数据量在 100P 以上,涉及到一些混合存储技术,包括磁带和 bd ,确保数据在极端情况下能够保存至少 100 年的概率超过 6 个 9.
hcocoa
2022-07-26 22:32:09 +08:00
不要问 XY Problem: https://coolshell.cn/articles/10804.html

你其实想知道的是如何保证高可用性,试试 BackBlaze B2 吧( 20 元一条,发之前删掉括号)
scegg
2022-07-26 22:36:27 +08:00
大量的损坏就发生在读取的过程中。也正是因为如此,存储系统不会经常的去靠读取数据来检测数据是否损坏,而是考虑当数据使用时候发现损坏如何补救。
hs0000t
2022-07-26 22:43:41 +08:00
首先,关于磁盘静默错误,已经有了多种解决方案,我目前在用的是 snapraid ,可以参考这个视频来配置。我目前的配置和这个视频里一致,每天检查 8%的数据,自动进行修复。
https://b23.tv/BV1vU4y1q7cS
此外,如果担心软件在运行的时候,内存发生位反转,可以使用 ecc 内存,不过这个的概率还是比较小的,除非是使用环境有辐射源,如医院 安检等,普通家用基本不用担心这个问题
hugee
2022-07-27 15:36:38 +08:00
在非地震带建一个恒温恒压真空室,把移动硬盘放进去。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/868676

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX