折腾 NAS 丢失大量珍贵数据后有感

2020-08-20 11:45:36 +08:00
 hotsun168

背景

  1. 第一版 NAS 已用 5 年,为占美无风扇工控机、一块 WD60EFRX 、优越者 Y-3359R 进行 DIY,稳定时千兆可跑满。

  2. 为了顺便当做远程桌面,没有使用黑群晖或 Linux,使用了 Win7 系统。Samba 服务经常无故卡死,遇到网络无法连接、0x00000000XX 等类似错误或“服务器存储空间不足无法处理此命令”等错误无数次,每次基本都需要重启。花了无数时间来解决这些问题,无果。一直在忍受,后续甚至写了脚本做定时重启。

  3. 第二版(在用)为群晖 DS920+、一块 WD140EMFZ,以及上面的 6T,买之前提前了解了很久 RAID5 是否安全,后选择 SHR 。

灾难

  1. 因计划把 6T 和 14T 硬盘都放入群晖,但硬盘插入群晖会被格式化,所以 14T 硬盘到货当天,用外接硬盘座接入 14T 硬盘,在 Win7 下进行 6T 到 14T 文件全量复制,期间报错无数,推测可能是 6T 磁盘长时间运行导致文件分配表错误。搜索相关资料提示 chkdsk 修复 NTFS 分区。

  2. [重点] chkdsk 完毕后,6T 硬盘中大量资料丢失(超过 80%),其中包括各种重要文件,尝试 DiskGenius 修复未果(不光是无法找回文件分配表,而且连 RAW 数据都无法找回)。

  3. 不幸中的万幸,其中少部分文件在各个网盘有备份,另一部分几年前有刻盘备份,但其中一些珍贵的资料再也无法找回(包括结婚视频、小孩照片、老光盘 ISO 等个人产生文件,与老游戏、各种收藏的视频等网络下载资源)。

  4. 花费几天时间在各种平台搜索网络下载资源,因年份久远,几乎全部失效,近似于无法找回。

现状与未来

  1. 计划在过一段时间之后再买一块 14T,尽可能避开同批次,2 块盘开 SHR 。

  2. 每隔一段时间继续买 14T,加到 4 块,开 SHR2 。

教训与体会

  1. 任何情况下大量数据复制尽可能先备份,或者使用专门的工具进行,谨慎进行 chkdsk 等硬盘修复措施。不要因为是程序员身份就各种放心大胆地操作,稍有不慎就会产生非常严重的后果。

  2. 脑子要清楚,选择方案要合理可行。其实可以选择先把 6T 使用 Ghost 备份一份到 14T 硬盘,再进行数据复制,反正空间足够。

  3. 重要资料放在 NAS 一定要开 RAID,硬盘少就用 RAID1,硬盘多可考虑 RAID5 、RAID6 或者群晖的 SHR 或 SHR2,其中尽可能选择允许 2 块盘故障时可恢复的方案。同时使用多份备份,网盘、冷备、刻盘等。

  4. 网络下载资料可考虑使用脚本生成 ed2k 链接,文件丢失后可以重新下载,或使用网盘快速离线。

  5. 从 2015 年第一版 NAS 到今年买群晖中间的 5 年里,硬盘柜里一直只有一块硬盘,最开始选择的 5 盘位硬盘柜产生了严重的浪费。感慨自己想得太多,有美好的愿望但却一直没有落实,又感叹运气太好,这 5 年中唯一的一块硬盘居然没坏。

  6. 第一版 NAS 使用的这 5 年中,是人生大事接连不断的几年,根本存不下钱,更别提这种大额投入了。所以钱真的可以解决绝大部分问题。如果有钱,最开始我就买群晖并放满硬盘,开各种灾备,就可以避免这种大量数据搬运,数据丢失的概率会大大降低。

  7. 只有栽跟头才能让人积累经验,只有疼痛才能让记忆更深。不舍得投入成本保护数据,还是因为数据对你不够重要。

40203 次点击
所在节点    程序员
154 条回复
ragnaroks
2020-08-21 08:58:38 +08:00
软 raid 必须 10
han3sui
2020-08-21 09:02:01 +08:00
本地 Win10 存储池镜像模式,重要文件放一份 OneDrive,代码 Github 私有库
hotsun168
2020-08-21 09:14:38 +08:00
@wenwen226400 感谢。先去了解一下。
@NetCobra 我不知道硬盘座是否是原因之一,但这个东西已经用了很久了,之前一直是接在下载宝上的。没出过问题。
@Archeb 宽带的上行带宽不太够。
@tankren OMV 真的稳定吗?我装了不下 5 次,几乎每次都是无故无法开机,只能重装。
@ryd994 感谢。具体方案我还会再考量一下。
@hanqi7012 在 6T 中直接双击打开文件是可以的,我试了几个文件都是如此,我也很困惑。
@henryshen233 所以主贴中我说只有疼痛才能让人记忆深刻。
evilic
2020-08-21 09:36:39 +08:00
绝对不在 nas 上使用 raid 的路过。

现状:4 盘位低端 nas,其中 2 个盘是主力,一个是个人数据,一个是下载数据。另外 2 个盘用来错开时间进行定时备份个人数据,下载数据无备份。

未来的计划是单独再买一个 2 盘位的高性能 nas 用来把个人数据拉出去,依然不 raid,备份到本地 nas 上一份,并进行跨 nas 的远程备份,通过公网备份到 4 盘位上来。这样可以把低端 nas 上的下载数据分区变的更大些。

之所以这样计划,是因为我发现数据中很多都是下载数据,核心的个人数据其实挺少的,而且冷数据多。当前无异地备份,只有同步到了 onedrive,阿里 oss,百度云上去了一部分。
不做 raid 是因为一旦有硬盘出现损坏,恢复 raid 数据的过程,就是新一轮损坏硬盘的过程。还不如直接粗暴备份来的干脆。如果主硬盘坏了,直接把备份的那块盘切到主要就行了,同时再插上一块新的硬盘,当做补充上来的备份目的地。

上一次我硬盘报损坏的时候,我这样的操作过程至少没有导致我的数据损失。即使这样简单的操作,我插上新硬盘后开启备份功能,还花了我 2 、3 天的时间。
lipcao
2020-08-21 09:47:26 +08:00
@nuk google photo 不是也是 google drive 的么?我看到我的不是无限的啊 你的咋搞的啊
qwerthhusn
2020-08-21 09:51:40 +08:00
大家有多少非常重要的数据?
samaxu
2020-08-21 09:52:54 +08:00
个人见解:
1 raid 不是为了备份,而是为了高可用,所以不适合个人,更适合企业,但 raid1 拿来备份还是可以的
2 raid 阵列硬盘坏了要做的是拷贝出数据而不是修复阵列


目前使用
8 盘位 nas,unraid,虚拟黑群晖直通 2 盘 raid1 并做网盘备份
raptor
2020-08-21 10:00:42 +08:00
不要用 RAID5,至少要 RAID6,RAID1 更好。

重要数据定期离线备份。

定期检查硬盘。

不重要的数据丢了就丢了,反正以后很可能也不会再去用,心态要平和。
yytbob
2020-08-21 10:01:39 +08:00
碰巧刚刚这周也坏了一块硬盘,和楼主一样也是正好用了 5 年,握爪。感觉新硬盘好贵,唯一比楼主幸运的是数据没有丢。几个建议:

[硬盘容量] 楼主似乎喜欢选择市场上容量偏大的单硬盘,如果用差不多的钱买 2 块容量略小的硬盘(比如 2 块 8T 硬盘)组成 RAID 是否安全性更高?另,不一定要上企业盘或者 NAS 专用盘,硬盘高端产品线和低端产品线的差距没有它们的价格那么大。买最便宜的盘组 RAID 本身就是天经地义,毕竟 RAID 中的 I 就是 inexpensive 廉价,WD Green 绿盘组软 RAID 5 也好过单盘裸奔。

[损坏时间] 6T 硬盘应该是之前就出问题了,chkdsk 和数据拷贝只是最后一根稻草。推荐定期检查磁盘健康情况。我这周的情况是 CrystalDiskInfo 最先警告 C5 、C6,然后尝试 WD LifeGuard Diagnostics 工具的 Quick Test 也报错,于是立刻备份数据。此时 RAID 依然没有降级,chkdsk /x 也完全无错。备份好没多久这硬盘就彻底挂了,连盘都不认。

[RAID vs. 异地冷备] RAID 不能替代异地冷备,RAID 可以保证硬件高可用性,但是不防人为误操作。切记。
xmumiffy
2020-08-21 10:08:18 +08:00
个人用就 raid 的,另行做备份
xmumiffy
2020-08-21 10:08:36 +08:00
@xmumiffy 写错 是别上
whenwind
2020-08-21 10:55:54 +08:00
丢过一次几个月的照片,如果不是早一段时间拷过一次进 u 盘,可能得丢 1 年的,于是,现在的配置就是一个白群双盘 raid1,一个星际蜗牛每天定时开机 HyperBackup 同步白群再关机,一台 nuc 在线 bittorrent sync 同步白裙的关键数据
nuk
2020-08-21 11:48:26 +08:00
@lipcao 不选原图就是无限容量啊
ranxy
2020-08-21 12:42:52 +08:00
可以一步到位上 ceph
tankren
2020-08-21 13:03:59 +08:00
@hotsun168 #123 OMV 怎么就不稳定呢 这个国内外都算是很知名的 Linux NAS 系统了 我用了五六年了 没出过毛病 倒是尝试过黑群晖 升级了一次就死给我看
aeli
2020-08-21 13:21:16 +08:00
1 块硬盘?讲数据安全?
lipcao
2020-08-21 13:22:38 +08:00
@nuk 哈哈 看到了
menghan
2020-08-21 14:07:39 +08:00
我觉得有两个问题 lz 没有想到,我提一下。

1. 大部分 IT 故障都是在引入变更时发生的,lz 的情况也是。
只不过现在不能确定是操作的问题还是操作之前问题已经发生了。
说明 lz 的操作是没有预案不完整的。

2. 没有异地备份和恢复流程。
我敢说 >90% 的 nas 使用者没有异地备份,这其中 >90% 的备份者没有演练过恢复流程。
备份本身就是对数据的一次读取,是验证系统可用的重要步骤。
而更重要的,备份要具备可恢复性,这个希望 lz 之后在优化系统时能注意到吧。
hotsun168
2020-08-21 14:11:45 +08:00
@tankren 我是有很多次无故无法启动,所以有点不敢用。也可能是我中奖了或者硬件有问题吧。
@IssacTomatoTan 完全没有,因为看到了老婆失望之后刻意装出来的想宽我的心让我别在意的眼神。
@sampeng 我可能没有实现场景。宽带上行带宽不太够,而且异地对端(老家,距离 600 公里)所在区域供电或者网络都不太行。
@aeli 已经吸取教训了。至少两块盘。
@menghan 是的,所以经过这次的事情我也吸取教训了。
Caan07
2020-08-21 14:38:30 +08:00
@ArJun #86 原盘一部大概 50GB 。另外如果是视频剪辑或者设计师,相机拍摄的原片也很大。如果家有小孩子,不说相机现在手机拍摄也越来越占容量了。

我自己的选择是重要文件,NAS 一份,移动硬盘一份,云 /网盘一份,再重要就刻录光碟,不过这个就少了。一般文件就 NAS,硬盘坏了就直接换,不需要冗余不搞 RAID 。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/699891

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX