12 块 6T, raid50 还是 raid10 还是软 raid?

2019-09-01 23:02:54 +08:00
 devlnt

存放一些搜集来的东西,会使用,不是收藏。最好相对安全,搜集比较花时间 阵列卡是 H730P

16633 次点击
所在节点    硬件
103 条回复
devlnt
2019-09-02 00:30:27 +08:00
@msg7086 如果是 10E14 的话,大容量的不是重建一次死一次么。。完全不存在 99%的说法啊。。而且真要安全是靠备份的吧。。
mhycy
2019-09-02 00:35:08 +08:00
@devlnt
RAID6 是整个 12-X (损坏数)盘阵列里面连续出现同一个块读取异常的可能性
不是 3 个盘里面出现一个块读取异常的可能性
annoy1309
2019-09-02 00:39:45 +08:00
认真觉得,你应该把数据按级别分类,我也大概有 20T 级别的数据,按重要级别映射了几个不同的虚拟磁盘,最重要的是 4 块 3T 盘做的 raid1,我觉得不能承受任何代价丢失的数据都在上面,剩余的是大概 8 块 4t 还是 9 块 4t 做的 raid6,放日常数据,最后就是三块 1t 做的 raid0,做日常迅雷啊,游戏啊反正丢了顶多重新下的东西都塞在里面
annoy1309
2019-09-02 00:40:37 +08:00
raid1 做了 4 块盘,我觉得 4 块同时炸掉的可能性还是比较小的,要是真 4 块同炸,说明天要亡我,我认了
devlnt
2019-09-02 00:44:01 +08:00
@annoy1309 分类了。。稍微重要的全扔 16 盘的 ssd 去了 R10。问题只是针对那些花时间搜集来的数据,没了还是可以搜集=_=只是花时间,很长时间而已。。。
devlnt
2019-09-02 00:46:14 +08:00
@mhycy
12 盘 raid6,先挂一块,读 11 盘,再挂一块,读 10 盘
12 盘 raid50,先挂一块,读俩盘,再挂一块 2/11 的概率死,剩下 9/11 的概率分别读俩盘
totoro625
2019-09-02 00:53:57 +08:00
有一个 raid5 重构成功率计算器 https://raid-failure.eth6.org/
12 块 6T raid5 也就 0.5%几率重构
devlnt
2019-09-02 00:55:22 +08:00
@totoro625 调下企业级硬盘 10E15,直接就 59%了。。。所以这个参数还挺关键的。。。
Enya
2019-09-02 01:01:07 +08:00
@devlnt 我觉得吧,既然上 raid 了,如果有个 500MB/s 我觉得是够的,所以安全性在这个情况下会更重要一些吧,毕竟出问题的时候恢复起来的影响业务的时间也是要考虑的
Enya
2019-09-02 01:01:51 +08:00
@msg7086 @mhycy 感谢两位的认真回复
mhycy
2019-09-02 01:03:18 +08:00
@devlnt 我该重申多少遍你才能理解 读取异常这个情况不是说盘坏了而是数据不可用
devlnt
2019-09-02 01:06:42 +08:00
@mhycy 我的重点不是挂了几盘,而是挂了盘之后要读多少盘,读的越多,越会出现你说的那个情况
msg7086
2019-09-02 01:10:01 +08:00
@devlnt #33
RAID 5 重建的时候没有冗余盘,读错一个字节就相当于阵列报废了。
RAID 6 重建的时候有冗余,所以需要同一个字节在两块盘上同时读错才会报废。

你仔细想想,一块硬盘上任意一个字节坏的概率,和两块硬盘上同一个位置的字节同时坏的概率,差多少?

差 10 个数量级都不止了吧。直接就可以把可靠性拉到 99.99999%以上了。

然后我用的 Z3,坏一块盘以后需要另外三块盘上同一个位置的字节同时坏才会炸,这个概率,是不是无限接近 0%了?
mhycy
2019-09-02 01:11:05 +08:00
@devlnt 难道 RAID50 能保证挂了一个盘之后有近乎 100%的恢复率么? RAID6 可以
msg7086
2019-09-02 01:14:48 +08:00
你 26 楼还是没想明白,读错不等于挂掉。

读错只是一个块,剩下的 6TB 数据还是好的,还是有效数据。只要这 URE 的这个字节或者扇区有替代品(有其他冗余),就不会炸阵列。你 26 楼是按照整个 6TB 数据全挂来计算的,这个和 URE (单比特、单字节、单扇区损坏)是两回事,你不要搞混了。

「再挂一块,读 10 盘」
应该是再挂一块中的一个扇区,读 10.9999999999 盘,才对。
ryd994
2019-09-02 01:18:57 +08:00
你需要的冗余度要和单盘大小成正比。因为单盘是故障单元,而读写速度和单盘容量远不成正比。甚至基本无关。因此重建时间和单盘成正比
@devlnt 不能按企业级标称值计算。且不说标称值只是一个估算,厂家出于自身利益倾向于高估。标称值的前提是恒温无震动电压稳定,也就是什么条件都完美,你问问自己有没有可能做到。而且重建期间是满负荷长时间运转。故障率肯定要比标称值高。
最后,上面纯概率计算成立的前提是两块硬盘的故障事件无关。如果你买的是同一批次或相近批次的盘,而且这些盘同时投入使用。浴缸曲线两个高点。如果是制造有问题,那整个批次都没得跑。如果是正常磨损寿命,那其中一块盘挂的时候,剩下 11 块也活不了多久了。这时候故障率肯定比标称值高得多。
@msg7086 raid6 当然软 raid 啊,为什么用 raid 卡
msg7086
2019-09-02 01:21:43 +08:00
@ryd994 软 RAID 可以啊,ZFS 或者 MD 都可以。这不是看楼主已经捏着一块 RAID 卡了嘛。
mhycy
2019-09-02 01:23:09 +08:00
@ryd994
@msg7086
而且这块卡 RAID6 也不差....(全固态还能跑个 GB 级缓存外速度)
ryd994
2019-09-02 01:23:58 +08:00
@devlnt 他们说的是数据冷错误。也就是宇宙射线翻转了一个 bit。raid 无法检测和预防这种错误。如果刚好是文件系统的关键 bit,那恭喜了。事实上,别说重建期间,正常运行期间 raid 也无法处理冷错误。raid 设计规范并不指定冷错误时,返回的是哪个盘的数据。一般控制器就是随便取一个。重点:raid5/6 读的时候可以不校验,为了性能。因为 raid 的故障模型是热故障,所以假设只要能读出就是正常数据。
这一点 zfs 吊打同级 raid,缺点是钱要够不然性能太差。
wangfei324017
2019-09-02 01:24:43 +08:00
raid 5+1 热备

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/597017

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX