12 块 6T， raid50 还是 raid10 还是软 raid？

annoy1309

2019-09-02 00:39:45 +08:00

认真觉得，你应该把数据按级别分类，我也大概有 20T 级别的数据，按重要级别映射了几个不同的虚拟磁盘，最重要的是 4 块 3T 盘做的 raid1，我觉得不能承受任何代价丢失的数据都在上面，剩余的是大概 8 块 4t 还是 9 块 4t 做的 raid6，放日常数据，最后就是三块 1t 做的 raid0，做日常迅雷啊，游戏啊反正丢了顶多重新下的东西都塞在里面

annoy1309

2019-09-02 00:40:37 +08:00

raid1 做了 4 块盘，我觉得 4 块同时炸掉的可能性还是比较小的，要是真 4 块同炸，说明天要亡我，我认了

devlnt

2019-09-02 00:44:01 +08:00

@annoy1309 分类了。。稍微重要的全扔 16 盘的 ssd 去了 R10。问题只是针对那些花时间搜集来的数据，没了还是可以搜集=_=只是花时间，很长时间而已。。。

devlnt

2019-09-02 00:46:14 +08:00

@mhycy
12 盘 raid6，先挂一块，读 11 盘，再挂一块，读 10 盘
12 盘 raid50，先挂一块，读俩盘，再挂一块 2/11 的概率死，剩下 9/11 的概率分别读俩盘

totoro625

2019-09-02 00:53:57 +08:00

有一个 raid5 重构成功率计算器 https://raid-failure.eth6.org/
12 块 6T raid5 也就 0.5%几率重构

devlnt

2019-09-02 00:55:22 +08:00

@totoro625 调下企业级硬盘 10E15，直接就 59%了。。。所以这个参数还挺关键的。。。

Enya

2019-09-02 01:01:07 +08:00

@devlnt 我觉得吧，既然上 raid 了，如果有个 500MB/s 我觉得是够的，所以安全性在这个情况下会更重要一些吧，毕竟出问题的时候恢复起来的影响业务的时间也是要考虑的

Enya

2019-09-02 01:01:51 +08:00

@msg7086 @mhycy 感谢两位的认真回复

mhycy

2019-09-02 01:03:18 +08:00

@devlnt 我该重申多少遍你才能理解读取异常这个情况不是说盘坏了而是数据不可用

devlnt

2019-09-02 01:06:42 +08:00

@mhycy 我的重点不是挂了几盘，而是挂了盘之后要读多少盘，读的越多，越会出现你说的那个情况

msg7086

2019-09-02 01:10:01 +08:00

@devlnt #33
RAID 5 重建的时候没有冗余盘，读错一个字节就相当于阵列报废了。
RAID 6 重建的时候有冗余，所以需要同一个字节在两块盘上同时读错才会报废。

你仔细想想，一块硬盘上任意一个字节坏的概率，和两块硬盘上同一个位置的字节同时坏的概率，差多少？

差 10 个数量级都不止了吧。直接就可以把可靠性拉到 99.99999%以上了。

然后我用的 Z3，坏一块盘以后需要另外三块盘上同一个位置的字节同时坏才会炸，这个概率，是不是无限接近 0%了？

mhycy

2019-09-02 01:11:05 +08:00

@devlnt 难道 RAID50 能保证挂了一个盘之后有近乎 100%的恢复率么？ RAID6 可以

msg7086

2019-09-02 01:14:48 +08:00

你 26 楼还是没想明白，读错不等于挂掉。

读错只是一个块，剩下的 6TB 数据还是好的，还是有效数据。只要这 URE 的这个字节或者扇区有替代品（有其他冗余），就不会炸阵列。你 26 楼是按照整个 6TB 数据全挂来计算的，这个和 URE （单比特、单字节、单扇区损坏）是两回事，你不要搞混了。

「再挂一块，读 10 盘」
应该是再挂一块中的一个扇区，读 10.9999999999 盘，才对。

ryd994

2019-09-02 01:18:57 +08:00

你需要的冗余度要和单盘大小成正比。因为单盘是故障单元，而读写速度和单盘容量远不成正比。甚至基本无关。因此重建时间和单盘成正比
@devlnt 不能按企业级标称值计算。且不说标称值只是一个估算，厂家出于自身利益倾向于高估。标称值的前提是恒温无震动电压稳定，也就是什么条件都完美，你问问自己有没有可能做到。而且重建期间是满负荷长时间运转。故障率肯定要比标称值高。
最后，上面纯概率计算成立的前提是两块硬盘的故障事件无关。如果你买的是同一批次或相近批次的盘，而且这些盘同时投入使用。浴缸曲线两个高点。如果是制造有问题，那整个批次都没得跑。如果是正常磨损寿命，那其中一块盘挂的时候，剩下 11 块也活不了多久了。这时候故障率肯定比标称值高得多。
@msg7086 raid6 当然软 raid 啊，为什么用 raid 卡

msg7086

2019-09-02 01:21:43 +08:00

@ryd994 软 RAID 可以啊，ZFS 或者 MD 都可以。这不是看楼主已经捏着一块 RAID 卡了嘛。

mhycy

2019-09-02 01:23:09 +08:00

@ryd994
@msg7086
而且这块卡 RAID6 也不差....（全固态还能跑个 GB 级缓存外速度）

ryd994

2019-09-02 01:23:58 +08:00

@devlnt 他们说的是数据冷错误。也就是宇宙射线翻转了一个 bit。raid 无法检测和预防这种错误。如果刚好是文件系统的关键 bit，那恭喜了。事实上，别说重建期间，正常运行期间 raid 也无法处理冷错误。raid 设计规范并不指定冷错误时，返回的是哪个盘的数据。一般控制器就是随便取一个。重点：raid5/6 读的时候可以不校验，为了性能。因为 raid 的故障模型是热故障，所以假设只要能读出就是正常数据。
这一点 zfs 吊打同级 raid，缺点是钱要够不然性能太差。

wangfei324017

2019-09-02 01:24:43 +08:00

raid 5+1 热备

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/597017

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.