Linuxサーバーが3年にわたって頻繁に使用されています。その上で多数の仮想化サーバーを実行していますが、一部は正常に動作しておらず、かなりの期間、サーバーのio容量を超えてiowaitが悪化しました。4個の500GBバラクーダSATAドライブが3com RAIDコントローラーに接続されています。1ドライブにはOSがあり、他の3ドライブはセットアップraid-5です。
ドライブの状態と、それらがアクティブに故障しているかどうかについての議論があります。
これは、4つのディスクのうちの1つに対する出力の一部です。それらはすべて比較的類似した統計を持っています:
SMART Attributes Data Structureのリビジョン番号:10 しきい値を持つベンダー固有のSMART属性: ID#ATTRIBUTE_NAMEフラグ値最悪のしきい値タイプWHEN_FAILED RAW_VALUEが更新されました 1 Raw_Read_Error_Rate 0x000f 118 099 006 Pre-fail Always-169074425 3 Spin_Up_Time 0x0003 095 092 000事前失敗常に-0 4 Start_Stop_Count 0x0032 100100020 Old_age Always-26 5 Reallocated_Sector_Ct 0x0033 100100 036事前失敗常に-0 7 Seek_Error_Rate 0x000f 077 060 030 Pre-fail Always-200009354607 9 Power_On_Hours 0x0032 069 069 000 Old_age Always-27856 10 Spin_Retry_Count 0x0013 100100 097事前失敗常に-1 12 Power_Cycle_Count 0x0032 100100020 Old_age Always-26 184 Unknown_Attribute 0x0032 100 100 099 Old_age常に-0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always-0 188 Unknown_Attribute 0x0032 100 100 000 Old_age Always-1 189 High_Fly_Writes 0x003a 100 100 000 Old_age常に-0 190 Airflow_Temperature_Cel 0x0022 071 060 045 Old_age Always-29(ライフタイム最小/最大26/37) 194 Temperature_Celsius 0x0022 029 040 000 Old_age Always-29(0 21 0 0) 195 Hardware_ECC_Recovered 0x001a 046 033 000 Old_age Always-169074425 197 Current_Pending_Sector 0x0012 100 100 000 Old_age常に-0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_ageオフライン-0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always-0 SMARTエラーログバージョン:1 エラーは記録されません
これについての私の解釈は、不良セクタや、いずれかのドライブがアクティブに故障しているという他の兆候はなかったということです。
ただし、高いRaw_Read_Error_RateとSeek_Error_Rateは、ドライブが死んでいることを示すものとして指摘されています。