用了五年的希捷酷狼 4T 终于搞的存储池损毁了

160 天前
 Autonomous

希捷 Iron Worlf 4T ,先后在群晖 DS916 、DS918 、DS1821 上面服役,从去年开始就报坏扇区,把重要数据都转移走了,只用于备份和视频监控,之后坏扇区缓慢增加快到 100 ,今天中午报存储池损毁,总共用了 44963 小时(约 5 年)

SMART 信息如下:

=== START OF INFORMATION SECTION ===
Model Family:     Seagate IronWolf
Device Model:     ST4000VN008-2DR166
Firmware Version: SC60
User Capacity:    4,000,787,030,016 bytes [4.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5980 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)


Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME                                                   FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate                                              0x000f   100   064   044    Pre-fail  Always       -       191296
  3 Spin_Up_Time                                                     0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count                                                 0x0032   099   099   020    Old_age   Always       -       1438
  5 Reallocated_Sector_Ct                                            0x0033   100   100   010    Pre-fail  Always       -       72
  7 Seek_Error_Rate                                                  0x000f   090   060   045    Pre-fail  Always       -       942800017
  9 Power_On_Hours                                                   0x0032   049   049   000    Old_age   Always       -       44967 (166 64 0)
 10 Spin_Retry_Count                                                 0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count                                                0x0032   099   099   020    Old_age   Always       -       1280
184 End-to-End_Error                                                 0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect                                               0x0032   097   097   000    Old_age   Always       -       3
188 Command_Timeout                                                  0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes                                                  0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel                                          0x0022   069   058   040    Old_age   Always       -       31 (Min/Max 31/38)
191 G-Sense_Error_Rate                                               0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count                                          0x0032   100   100   000    Old_age   Always       -       94
193 Load_Cycle_Count                                                 0x0032   100   100   000    Old_age   Always       -       1715
194 Temperature_Celsius                                              0x0022   031   042   000    Old_age   Always       -       31 (0 8 0 0 0)
197 Current_Pending_Sector                                           0x0012   100   099   000    Old_age   Always       -       24
198 Offline_Uncorrectable                                            0x0010   100   099   000    Old_age   Offline      -       24
199 UDMA_CRC_Error_Count                                             0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours                                                0x0000   100   253   000    Old_age   Offline      -       44938h+12m+42.758s
241 Total_LBAs_Written                                               0x0000   100   253   000    Old_age   Offline      -       41194810487
242 Total_LBAs_Read                                                  0x0000   100   253   000    Old_age   Offline      -       734699003862

看了下主要是 Reported_Uncorrect 、Offline_Uncorrectable 有计数,打算先用群晖做一个 Secure Erase 看看能否挽救。

5182 次点击
所在节点    NAS
28 条回复
Autonomous
159 天前
@princeofwales 是的,避免在这块硬盘上存储重要数据
@asdgsdg98 以后都选择企业级,噪音大没关系已经放玄关去了

@northbrunv 听说酷狼就是银河的降级盘(次品)

@maleclub 都靠运气

@metrics 8 盘位基本就一步到位了,不折腾,但是插满真的费电
@JoeoooLAI 一直都有 UPS ,我开始 2 年还用自动休眠,后来才关掉
@zealic 有一种说法是,次品容易集中在某个批次一起出场,然后被一并购买,寿命也差不多同时耗尽,所以 RAID5 重建有一定失败率。我这个不开 RAID 是因为一年前就报坏扇区了,重要数据转移走然后踢出 RAID

@maleclub 一直都用 APC-BK650
asyqm
159 天前
@Autonomous 感觉上即便是次品某个批次,但是如果你是 4/8 个,HDD 同一时间(比如在一个月内)同时损坏的几率还是很少的。另外,HDD 跟 SSD 不一样,你说的寿命耗尽应该是指 SSD 。HDD 很多服役上 10 年的,理论上他没有寿命耗尽这个说法。
zealic
159 天前
@Autonomous 是的,但是消费品还是太容易买到同批次,即便非同批次也有概率同时坏,所以一般最好的做法是买相同容量的不同品牌的盘来组 RAID 。
xinmans
159 天前
@ltkun 你好奢侈,我 8 盘位,raidz2 ,16T*8 ,可用空间 100T
JoeoooLAI
159 天前
@Autonomous 同批次寿命耗尽的这个说法只存在于理论上,毕竟我跟过的服务器,硬盘肯定都是一次采购好的,也真的没出现过一块硬盘坏了以后在同一个月就跟着有另外一块盘坏的情况,当然也可能是我样本量不够多,而且都是 OEM 盘,手上管理的也不过百台。

Raid5 有两个风险,一个是 URE 风险,就是重建时其中一块硬盘有坏块不可读导致重建失败,其实 Raid1 也会存在的,除非你是两块以上镜像。第二就是重建时别的盘崩掉,毕竟重建的时候其他盘都是全力工作的。

如果楼主数据很重要且盘位足够,那肯定 raid6 实际,毕竟硬盘越大风险也是越大的。当然有额外一台机器备份那就更好了。

也不太赞同完全不做 Raid ,毕竟能保持服务在线即使是对于个人家庭用户来说还是很舒服的,毕竟不做 raid ,每次出事都要慢慢倒备份,倒备份的时候又炸一次 那是真的心态崩了,Raid 即使有众多缺点到现在还有人用肯定是有道理的。

虽然现在数据中心都开始往单盘闪存超融合去做存储,但人家机器节点规模可不是家里放得下的,所以还是老老实实 Raid + 备份,即使是买个 usb 硬盘盒额外装备份盘也好。
shirasu
155 天前
@xinmans #24 可以顺便问一下使用的是什么系统吗?
xinmans
154 天前
@shirasu unraid 和 truenas scale 都支持 zfs
inorobot
151 天前
之前用的 DS918+,有块盘经常提示重新连接,后来发现清一下灰就好了,感觉可能是接口没有接好,以及 NAS 风道攒灰太大了,现在定期用吸尘器洗一下,换盘的时候把接口也都刷一下,基本后来没遇到提示重新连接数了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1000933

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX