12 块 6T, raid50 还是 raid10 还是软 raid?

2019-09-01 23:02:54 +08:00
 devlnt

存放一些搜集来的东西,会使用,不是收藏。最好相对安全,搜集比较花时间 阵列卡是 H730P

16706 次点击
所在节点    硬件
103 条回复
devlnt
2019-09-02 01:34:38 +08:00
@msg7086 26 楼中挂一块值的是硬盘坏了,再挂一块指的是重建的时候又坏了一块。如果是同一批次,如 36 楼所说,概率不算低
devlnt
2019-09-02 01:37:35 +08:00
@ryd994 这个估算,我倒是倾向于厂商是低标的。高标对他们自己没好处,被查实虚标吃不了兜着走。恒温跟电压可以做到。。。无震动嘛。。要看你怎么定义震动了
msg7086
2019-09-02 01:48:38 +08:00
@devlnt 全盘损坏的概率是很低的。
一块硬盘要全损,一般三种原因,电路板坏了,磁头坏了,负磁道服务区坏了。
硬盘同时全损的概率很低的,一般说的重建时硬盘挂掉,指的是因为 URE 导致单个扇区读取失败的情况。
大多数硬盘都是从(逻辑)坏道开始的,如果是电路板或者磁头坏,那是生产问题,可能上线跑了两星期就全挂了,再多的 RAID 都解决不了。

另外,URE 本质上并不是「硬件损坏」,或者说并不是「损坏」。磁盘在存放过程中,磁场数据本身就会偶尔改变。换句话说,你一块 6TB 盘放在桌上一年不碰,这 48 万亿比特的数据也会有数万甚至更多,会自己改变,0 变成 1,1 变成 0。硬盘本身有纠错功能,读取的时候,4096 字节里读到了几个字节的坏块也可以原地修复。
这就意味着放置越久的数据,坏比特、坏字节就越多,累计到无法修复的程度时就会产生 URE。
URE 并不意味着什么硬件「坏了」,可能只是「久了」而已。
所以修复这种 URE (逻辑坏道)的方法其实就是全盘擦除一遍,让每个扇区里的坏块都重写成正确数据就行了。

对于 RAID 5 来说,URE 是会由阵列卡自动修复的。(这个我司生产机上已经出现过很多次了,可重现的。)
所以会让 RAID 5 降级的,都是硬盘全损故障。你说重建的时候出现第二块硬盘全损,概率其实是很低的。
上面讨论到现在,都是讨论的第二块、第三块硬盘 URE 的情况。
msg7086
2019-09-02 01:54:04 +08:00
@devlnt #42 这些指标都是理论值,就像 MTBF 一样,都是根据指标进行理论计算得出的,怎么查实?
比如一块企业级硬盘的标称理论 MTBF 是 150 万小时,你怎么查实?花 170 年去测吗……
ryd994
2019-09-02 01:56:39 +08:00
@devlnt 你怎么证明?这只是一个理想条件下的推算,实际上怎样,厂家也不可能知道。难道新出一块盘就先跑个十年再卖吗?最多高温加速实验,但是加速实验的前提就是假设了加速比例,实际上加速了多少,谁也不知道。很可能是厂家根据各个原价的故障率,理论推算全盘故障率。计算方法不同,得出的数据可以差好几个数量级。

要看实际数据,backblaze 有。真正生产线上跑出来的统计。
ryd994
2019-09-02 01:57:28 +08:00
*更可能是厂家根据各个原件的故障率,理论推算全盘故障率*
devlnt
2019-09-02 02:12:34 +08:00
@msg7086
@ryd994 你俩这也要杠么?出来这么个时间,大家都认可的,自然有他的测试的方法和流程。厂家怎么可能不知道实际情况嘛,返修了多少总知道吧。测得方法各家都不同比如捞一万块一起测呗。这就跟工信部的油耗一样,有没有标准?有嘛。能不能重复?可以。你能不能做到?不怎么能
ryd994
2019-09-02 02:36:48 +08:00
@devlnt 你也知道工信部油耗做不到啊?那怎么 mtbf 就一定能做到?那你应该往高了估还是往低了估?
一万块一起测?一万块测一小时就等于一万小时的数据?硬盘到寿命末期故障率会迅速上升。混用批次,分批投用,就是为了避免一批一起挂的情况。
你还没考虑人为错误和重建前的人员响应时间。你能做到 24 小时机房有人,长备替换盘么?如果用热备的话你会希望热备随时上线还是错开负载高峰再上线?
msg7086
2019-09-02 02:56:20 +08:00
你开心就好,就用传说中的四组三盘 RAID 50 吧(笑)
你懂得比我们多多了,何必还来问我们这些什么都不懂的人呢(笑)
devlnt
2019-09-02 03:14:02 +08:00
@ryd994 https://www.seagate.com/cn/zh/support/kb/hard-disk-drive-reliability-and-mtbf-afr-174791en/
希捷的官方文档,很多类似的数据都是经过大量的实体东西去测的原始数据再调整的
devlnt
2019-09-02 03:31:30 +08:00
@msg7086 raid 50 - 4 legs 很难理解么?完全不明白笑点啊
devlnt
2019-09-02 03:45:31 +08:00
转载了一个 raid50-60 的介绍视频。希望可以消除某些误解
https://www.bilibili.com/video/av66349088/
QNAP 的科普性质的视频
ryd994
2019-09-02 03:53:07 +08:00
@devlnt AFR and MTBF are population statistics that are not relevant to individual units.
墨菲定律此处适用,average ≠ maximum

建议换个标题。raid50 牛爆天际,raid6 吃饱了撑的。
你爱用就用,问个 P
devlnt
2019-09-02 03:54:28 +08:00
@ryd994 其实在考虑 raid60 来着。你们都不说我有啥办法。。
ryd994
2019-09-02 03:54:38 +08:00
@devlnt Based on the observed error rate over a few weeks or months, the MTBF is estimated and not representative of how long your individual drive, or any individual product, is likely to last. Nor is the MTBF a warranty
建议你好好补习一下英文呢。免得贴个链接打自己脸。
devlnt
2019-09-02 03:58:21 +08:00
@ryd994 The specification is based on a large (statistically significant) number of drives running continuously at a test site, with data extrapolated according to various known statistical models to yield the results.我的英文大概没有问题
ryd994
2019-09-02 04:04:10 +08:00
@devlnt 你英文有没有问题大家看的懂
*extrapolated*
*statistical models*

一比一的实验是不可能的,否则希捷不用卖了
devlnt
2019-09-02 04:07:29 +08:00
@ryd994 它最初是为军事领域开发,可以通过几种不同的方法来计算,每种方法都会产生极为不同的结果。对于硬盘驱动器机构,常见的 MTBF 等级为 300,000 至 1,200,000 小时之间,这可能让人们得出结论,即该规格承诺可实现 30 至 120 年的连续操作。事实并非如此!此规格基于在测试站点上持续运行的大量(具有统计意义)硬盘以及根据各种已知统计模型推断的数据,从而生成结果。
MTBF 是根据几周或几个月内观察到的错误率估算得出,并不代表您的个人硬盘或任何个别产品可以持续使用多长时间。MTBF 也不是质保 - 它代表了一系列产品的相对可靠性。较高的 MTBF 通常仅仅表示该系列机构更加可靠和耐用(取决于所使用的统计模型的一致性)。历史上,包含无论何种原因的所有退货在内,现场 MTBF 通常为预计 MTBF 的 50-60 %。


明明有官翻还要讨论这种东西
devlnt
2019-09-02 04:09:16 +08:00
@ryd994 如 50 楼所说,是大量实体的测试再调整
msg7086
2019-09-02 04:15:22 +08:00
你爱用就用,问个 P

你开贴之前先告诉大家,推荐 50 以外方案的请勿回帖,这样免得浪费你和大家的时间。
我对这种寻找认同感的帖子实在没什么兴趣,已 Block 以示敬意。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/597017

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX