このSMARTセルフテストはドライブの障害を示していますか?


10

このSMARTセルフテストの結果がドライブの障害を示しているかどうか疑問に思っています。これは、結果に「completed:read failure」が表示される唯一のドライブです。

# smartctl -l selftest /dev/sde
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)   LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%      8981         976642822
# 2  Extended offline    Aborted by host               90%      8981         -
# 3  Extended offline    Completed: read failure       90%      8981         976642822
# 4  Extended offline    Interrupted (host reset)      90%      8977         -
# 5  Extended offline    Completed without error       00%       410         -

ドライブは、SMARTセルフテストの出力を除いて、まだ障害の兆候を示していません。これは、現在SMARTセルフテストを実行している同じシステムの別のドライブからの出力です

# smartctl -l selftest /dev/sdc
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Self-test routine in progress 30%     15859         -
# 2  Extended offline    Completed without error       00%      9431         -
# 3  Extended offline    Completed without error       00%      8368         -


SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       1
  3 Spin_Up_Time            0x0027   176   175   021    Pre-fail  Always       -       4183
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       48
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   088   088   000    Old_age   Always       -       8982
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       46
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       34
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       13
194 Temperature_Celsius     0x0022   111   101   000    Old_age   Always       -       36
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       1
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       2

4
生のカウンタを含むsmartctl -a /dev/sdeというラベルの付いたセクションを実行して投稿すると、はるかに役立ちますSMART Attributes Data Structure。特に、一番最初にRaw_Read_Error_Rateあるのは、最良の「不良ドライブ」インジケーターです(そして、おそらく!0になるでしょう)。
クリスS

1
追加しました。。。。。。。。。。
ジェフウェリング

1
追加したデータには問題がないようです。ドライブがRAIDアレイの一部である場合、心配する必要はありません。最初に重要なファイルをバックアップする必要があります。そうでない場合は、今から始めるのが良いでしょう。
クリスS

4
@ジェフ・ウェリング:それについて熟考する必要はありませんが、「バックアップ」がRAIDアレイ上にある場合、それは「バックアップ」ではなく「コピー」です。個人的には、私がドライブの故障の兆候があったときにドライブを交換します。最近の良いドライブでさえコストがほとんどないので、保険はそれだけの価値があります。また、同じ(RAID10)アレイで同じ日に2つのドライブ障害が発生しました。アレイにあった6つのうち。FWIW。
ケンドール

1
@ケンドール、彼はアレイがバックアップに使用され、オリジナルは別の場所にあることを意味すると思います。2つのドライブが故障する可能性は低いため、そうなる可能性があります(新しいドライブでない限り、乳児の死亡率が一般的な問題であり、大規模アレイではバーンインが一般的です)。
クリスS

回答:


8

うまくいけば、ドライブを交換してから長い間ですが、誰もまだ直接質問に答えていないので...

2つのテストを実行しましたが、どちらもディスクの同じ論理セクターを読み取ることができませんでしたCompleted: read failure。これは確かにディスクに欠陥があることを示しており、保証のもとで交換することができるはずです。このセクターにデータを保存しようとすると、ドライブが書き込みプロセス中に欠陥を認識してセクターを再マッピングする場合とそうでない場合がありますが、ドライブが認識せず、後でデータを読み取れない場合は、データが失われています。それ。


4

あなたのデータは疑わしいドライブでリスクを冒す価値がありますか?

それが私だったら、ドライブを交換して、SMARTが私に大きな頭痛の種を救ってくれたことに感謝します。


さらに、少なくとも週に1回ドライブでスマートに実行するようにcronスクリプトを設定し、その出力を毎週レポートまたはメールで送信して、ほとんどの場合事前に識別できるようにします障害からの回復やバックアップからの復元を回避するために、どのドライブが最後のレッグにある可能性がありますか。複数のマシンを使用している場合は、NagiosやMuninなどの監視ツールを使用するとさらに簡単です。
Wilshire、2011

5
スマート出力がドライブの障害を示していることを知っている場合、これはより簡単です。ドライブの障害を示し、何を示していないのかを見分けるのは困難です。
ジェフウェリング

4

他の回答のコメントに追加したいのですが、担当者がいないためできません。

cronスクリプトを作成する必要はありません。smartmontoolsパッケージには、やりたいことだけを処理するsmartdデーモンがあります。SMARTステータスの定期的なチェックです。必要なのは、構成作成してサービスを開始することだけです。smartmontoolsパッケージには、何かが失敗し始めたときにsmartdが呼び出すことができるいくつかのサンプルスクリプトも含まれています。


私はcronスクリプトを使用していません。smartdデーモンを使用しています。システムログにメモが出力され、他のドライブには通常表示されない行があることに気づき、セルフテストを試みましたが、チェックすると失敗しました。今までこの種の失敗を見たことがなかったので、ここにいる人がいるのではないかと思いました。smartdのSyslog出力は、それに関する大量の経験がない場合はかなり不可解です。「ドライブXが故障しており、交換する必要がある」とは正確にはわかりませんが、そうした方がいいでしょう:)
ジェフウェリング2011

2

あなたの状況で私は何をしますか?

まず、影響を受けるファイルを見つけます。これを行うにはいくつかの指示があります http://smartmontools.sourceforge.net/badblockhowto.html#e2_example1 そうです。あなたの場合、配列があるので難しいです。しかし、それは可能です。失敗したセクターにゼロを書き込むよりも、このファイルがバックアップされていることを確認してください。2つのことが起こります。1.ドライブはこのセクターにゼロを正常に書き込みます。Current_Pending_Sector、Reallocated_Sector_Ctは後でゼロにする必要があります。2.ドライブはこのセクターへの書き込みに失敗します。それはこのセクターを「スペア」エリアに再マップします。

いずれの場合も、最終的に固定ドライブになります。バックアップからファイルを復元する必要があります(ファイルの1つのセクターを上書きしたため)。また、拡張セルフテストを再実行して、エラーが発生していないことを確認する必要があります。

健康を維持する!

PS私はこの投稿が古いものであることを知っています。しかし、私はそれをグーグルしました。そして、私は別の良い答えを提供することは良い考えだと思います。


1
お役立ち情報!これを今すぐ試す
kerridge0

0

ドライブはおそらく途中でした。ドライブの一部から読み取ることができないことは、間違いなく障害状態であり、ディスク障害の他の典型的な兆候なしにそれが起こることは確かに可能です。この種のことは一般的に一時的なものではありません。他の兆候がない場合、それは弱いヘッド、非常にわずかなアライメントの問題、またはプラッター(シリンダー?)の欠陥領域である可能性があります。

他の選択肢は、SMARTバグがあったことです。あなたは本当にバグのあるファームウェアでドライブを実行したくありません。

SMARTでエラーが発生した場合は常に、データの損失を防ぐために新しいドライブを入手する必要があることを強く示しています。一部は早期警告システムとして意図されています。


0
  • できるだけ早くバックアップしてください!

  • このドライブがまだ保証期間内である場合、

    • ベンダーのチェックユーティリティを実行します(通常、ブートCDを取得できます)
    • これがエラーを返す場合はビンゴし、それを送り返して交換を待つ
    • バックアップから復元
    • 問題は解決しました-終了

  • このドライブに保証がない場合、あなたはねじ込まれています
    • まだ希望はあります...
    • これは実際には読み取りエラーなので、書き込みできないという意味ではありません
    • バックアップを作成した後、実際に読み込める新しいデータで読み取り不可能なセクターが上書きされるため、バックアップの復元を試みることができます(通常、これはバックグラウンドで機能し、ほとんどの場合、ドライブはこれらのブロックをスペアセクターに再マッピングします)
    • badblocks ツールもこれに使用できます(すでにバックアップがありますよね?)
      • これを実際に使用してディスクをテストすることはなく(決してディスクを使用しても意味がありません)、これらのセクターに複数回書き込む
    • スマートテストを再度実行すると、これらの読み取り不可能なセクターが「自分自身を修正」する可能性があります
    • 問題は解決していません。ドライブを長持ちさせただけです。おそらく、使用状況によっては通常よりも早く故障する可能性がありますが、ディスクは安価です。データが重要な場合は新しいディスクを入手してください-END

1
最新のハードドライブ(世紀の変わり目以降など)は、「保証なし」セクションで説明した方法では機能しません。
クリスS

3
ウィキペディアの不良セクターの記事から始めます。ハードドライブは、論理セクターアドレスを抽象化し、それを適切と思われるセクターにマッピングします。一部のベンダーユーティリティ(ドライブによって公開されるものによってはSMARTの場合もあります)は、再マップされたセクターについてレポートできます。通常、書き込み操作で不良セクターが検出されます。通常、いったん書き込まれると、再度読み取ることができます。不良セクターで一般的に失敗するのは、最初の書き込み操作です。セクターがひどくなれば、それは永遠にひどくなり、「修正」することはできません。
クリスS

1
私はあなたが言っていることに反することは何も言わなかったと思いますが、より「技術的に正しい」ようにするために少し明確にしました。
cstamas

2
なぜ人々があなたの答えにそれほど反対票を投じたのかわかりません。私はあなたがスポットしていると思います。不安定なドライブを運用し続けることを提唱していると人々は誤解している可能性があります。しかし、OPがホームユーザーであることを考えると、現在の価格であっても、新しいドライブのコストは非常に問題になる可能性があります。私はこれがかなり古い質問であることを知っていますが、少なくとも私からは、+ 1を受け取ります。;)
Markus A.

2
@cstamas:あなたの答えが正しいことに同意することもできます-ドライブがbadblocks -w新しい不良セクターを作成せずに(3x書き込み、3x読み取り)のフル稼働を生き延びた場合、それを保持します。それ以外の場合は、どこかで使用するには壊れすぎます。
mt_ 2013年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.