12 块 6T， raid50 还是 raid10 还是软 raid？

msg7086

2019-09-02 01:48:38 +08:00

@devlnt 全盘损坏的概率是很低的。
一块硬盘要全损，一般三种原因，电路板坏了，磁头坏了，负磁道服务区坏了。
硬盘同时全损的概率很低的，一般说的重建时硬盘挂掉，指的是因为 URE 导致单个扇区读取失败的情况。
大多数硬盘都是从（逻辑）坏道开始的，如果是电路板或者磁头坏，那是生产问题，可能上线跑了两星期就全挂了，再多的 RAID 都解决不了。

另外，URE 本质上并不是「硬件损坏」，或者说并不是「损坏」。磁盘在存放过程中，磁场数据本身就会偶尔改变。换句话说，你一块 6TB 盘放在桌上一年不碰，这 48 万亿比特的数据也会有数万甚至更多，会自己改变，0 变成 1，1 变成 0。硬盘本身有纠错功能，读取的时候，4096 字节里读到了几个字节的坏块也可以原地修复。
这就意味着放置越久的数据，坏比特、坏字节就越多，累计到无法修复的程度时就会产生 URE。
URE 并不意味着什么硬件「坏了」，可能只是「久了」而已。
所以修复这种 URE （逻辑坏道）的方法其实就是全盘擦除一遍，让每个扇区里的坏块都重写成正确数据就行了。

对于 RAID 5 来说，URE 是会由阵列卡自动修复的。（这个我司生产机上已经出现过很多次了，可重现的。）
所以会让 RAID 5 降级的，都是硬盘全损故障。你说重建的时候出现第二块硬盘全损，概率其实是很低的。
上面讨论到现在，都是讨论的第二块、第三块硬盘 URE 的情况。

msg7086

2019-09-02 01:54:04 +08:00

@devlnt #42 这些指标都是理论值，就像 MTBF 一样，都是根据指标进行理论计算得出的，怎么查实？
比如一块企业级硬盘的标称理论 MTBF 是 150 万小时，你怎么查实？花 170 年去测吗……

ryd994

2019-09-02 01:56:39 +08:00

@devlnt 你怎么证明？这只是一个理想条件下的推算，实际上怎样，厂家也不可能知道。难道新出一块盘就先跑个十年再卖吗？最多高温加速实验，但是加速实验的前提就是假设了加速比例，实际上加速了多少，谁也不知道。很可能是厂家根据各个原价的故障率，理论推算全盘故障率。计算方法不同，得出的数据可以差好几个数量级。

要看实际数据，backblaze 有。真正生产线上跑出来的统计。

ryd994

2019-09-02 01:57:28 +08:00

*更可能是厂家根据各个原件的故障率，理论推算全盘故障率*

devlnt

2019-09-02 02:12:34 +08:00

@msg7086
@ryd994 你俩这也要杠么？出来这么个时间，大家都认可的，自然有他的测试的方法和流程。厂家怎么可能不知道实际情况嘛，返修了多少总知道吧。测得方法各家都不同比如捞一万块一起测呗。这就跟工信部的油耗一样，有没有标准？有嘛。能不能重复？可以。你能不能做到？不怎么能

ryd994

2019-09-02 02:36:48 +08:00

@devlnt 你也知道工信部油耗做不到啊？那怎么 mtbf 就一定能做到？那你应该往高了估还是往低了估？
一万块一起测？一万块测一小时就等于一万小时的数据？硬盘到寿命末期故障率会迅速上升。混用批次，分批投用，就是为了避免一批一起挂的情况。
你还没考虑人为错误和重建前的人员响应时间。你能做到 24 小时机房有人，长备替换盘么？如果用热备的话你会希望热备随时上线还是错开负载高峰再上线？

msg7086

2019-09-02 02:56:20 +08:00

你开心就好，就用传说中的四组三盘 RAID 50 吧（笑）
你懂得比我们多多了，何必还来问我们这些什么都不懂的人呢（笑）

devlnt

2019-09-02 03:14:02 +08:00

@ryd994 https://www.seagate.com/cn/zh/support/kb/hard-disk-drive-reliability-and-mtbf-afr-174791en/
希捷的官方文档，很多类似的数据都是经过大量的实体东西去测的原始数据再调整的

devlnt

2019-09-02 03:31:30 +08:00

@msg7086 raid 50 - 4 legs 很难理解么？完全不明白笑点啊

devlnt

2019-09-02 03:45:31 +08:00

转载了一个 raid50-60 的介绍视频。希望可以消除某些误解
https://www.bilibili.com/video/av66349088/
QNAP 的科普性质的视频

ryd994

2019-09-02 03:53:07 +08:00

@devlnt AFR and MTBF are population statistics that are not relevant to individual units.
墨菲定律此处适用，average ≠ maximum

建议换个标题。raid50 牛爆天际，raid6 吃饱了撑的。
你爱用就用，问个 P

devlnt

2019-09-02 03:54:28 +08:00

@ryd994 其实在考虑 raid60 来着。你们都不说我有啥办法。。

ryd994

2019-09-02 03:54:38 +08:00

@devlnt Based on the observed error rate over a few weeks or months, the MTBF is estimated and not representative of how long your individual drive, or any individual product, is likely to last. Nor is the MTBF a warranty
建议你好好补习一下英文呢。免得贴个链接打自己脸。

devlnt

2019-09-02 03:58:21 +08:00

@ryd994 The specification is based on a large (statistically significant) number of drives running continuously at a test site, with data extrapolated according to various known statistical models to yield the results.我的英文大概没有问题

ryd994

2019-09-02 04:04:10 +08:00

@devlnt 你英文有没有问题大家看的懂
*extrapolated*
*statistical models*

一比一的实验是不可能的，否则希捷不用卖了

devlnt

2019-09-02 04:07:29 +08:00

@ryd994 它最初是为军事领域开发，可以通过几种不同的方法来计算，每种方法都会产生极为不同的结果。对于硬盘驱动器机构，常见的 MTBF 等级为 300,000 至 1,200,000 小时之间，这可能让人们得出结论，即该规格承诺可实现 30 至 120 年的连续操作。事实并非如此！此规格基于在测试站点上持续运行的大量（具有统计意义）硬盘以及根据各种已知统计模型推断的数据，从而生成结果。
MTBF 是根据几周或几个月内观察到的错误率估算得出，并不代表您的个人硬盘或任何个别产品可以持续使用多长时间。MTBF 也不是质保 - 它代表了一系列产品的相对可靠性。较高的 MTBF 通常仅仅表示该系列机构更加可靠和耐用（取决于所使用的统计模型的一致性）。历史上，包含无论何种原因的所有退货在内，现场 MTBF 通常为预计 MTBF 的 50-60 ％。

明明有官翻还要讨论这种东西

devlnt

2019-09-02 04:09:16 +08:00

@ryd994 如 50 楼所说，是大量实体的测试再调整

msg7086

2019-09-02 04:15:22 +08:00

你爱用就用，问个 P

你开贴之前先告诉大家，推荐 50 以外方案的请勿回帖，这样免得浪费你和大家的时间。
我对这种寻找认同感的帖子实在没什么兴趣，已 Block 以示敬意。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/597017