ハードドライブに障害が発生していますか？

41

hddでテストを実行しようとしましたが、セルフテストを完了したくありません。結果は次のとおりです。

smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (local build)

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       697
  3 Spin_Up_Time            0x0027   206   160   021    Pre-fail  Always       -       691
  4 Start_Stop_Count        0x0032   074   074   000    Old_age   Always       -       26734
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       28
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       7432
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       3186
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       20473
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       84
193 Load_Cycle_Count        0x0032   051   051   000    Old_age   Always       -       447630
194 Temperature_Celsius     0x0022   113   099   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       16
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      7432         92290592
# 2  Conveyance offline  Completed: read failure       90%      7432         92290596
# 3  Conveyance offline  Completed: read failure       90%      7432         92290592
# 4  Short offline       Completed: read failure       90%      7431         92290596
# 5  Extended offline    Completed: read failure       90%      7431         92290592

このディスクは故障していますか？

hard-drive smart smartctl

— ミシェル
ソース

グラフィックツールを使用すると、セルフテストに失敗しました

— ミシェル14年

3

繰り返されるread failureメッセージは、通常、障害が発生したディスクを示しているので、はい...

— HBruijn

23

ミシェル、SFへようこそ。最初の質問に感謝します。これらの部分の周りに留まることを決めたならわかるかもしれませんが（そうすることを望みます）、良い最初の質問はまれで貴重なものです。サイトに適した仮説（「私のHDDが故障している」）があり、関連するツールを見つけて使用方法を学びましたが、結果の解釈にいくらかの助けが必要でした。あなたはここに来て、私たちにすべての関連情報を提供し、余剰のごみは出さず、簡潔さのモデルである質問をしました。よろしくお願いします！

— MadHatterは、モニカをサポートしています14

3

+1：すばらしい最初の質問。サーバーフォールトを最大限に活用するには、アカウントを登録し、Stack Exchangeネットワーク上の他のサイトをチェックアウトしてください。Stack Exchangeに、より高品質のコンテンツを提供してください。

— bwDraco 14年

43

あなたのドライブはセルフテストを喜んで行います。要約から、過去1時間で5つ以上を行っています。そして、それらはすべて、テストの初期段階で読み取りエラーで失敗しました。

はい、このハードドライブは故障しています。Google Labsの有名なレポートが述べているように（現時点ではリンクに手を当てることはできませんが）、smartctlドライブに障害が発生していると言われたら、おそらくそうです（言い換えます）。

編集：保存しようとしないでください。すべてのデータを取得し、置き換えます。

— MadHatterはMonicaをサポートしています
ソース

9

失敗している場合は、失敗しています。修復は技術的には可能かもしれませんが、新しいドライブのコストと比較して費用効果が高いとは考えられません。

— Sobrique

7

セルフテストエラーの@Michelアンの不在は、ドライブがあることの証明ではありませんされていない悲しいことに、失敗しますが、セルフテストエラーの存在は、常にそれが証拠とみなされるべきれる失敗します。

— ロブモアー14年

1

@Michel：ケーブルを交換してみてください。ドライブの問題ではなく、電源ケーブルやデータケーブルの不良が原因でドライブが故障する場合があります。

— トーマスパドロン-マッカーシー14年

1

@JorgeNerín：あなたは素晴らしい点を挙げていると思いますが、証拠は私とOPの両方がすでにそれを理解しているという証拠です-OPは、過去2時間で少なくとも5つを開始したに違いありません。テストに関しては、ドライブが正常であることを示す長いテストの方が指標が良いことに同意しますが、ドライブの最初の10％で短いテストと搬送テストの両方に失敗した場合、ドライブは合理的に結論付けられると思いますショット。より広範なテストによって何が明らかになると思いますか？

— MadHatterは、モニカをサポートしています14

2

@JorgeNerín<grin>それは理にかなっています！OPが彼のドライブを擬人化することから始まったので、私はそう言っただけです。「私はちょうど私のhddでテストを実行しようとしましたが、セルフテストを完了したくない」。私たちのどちらもドライブが生きているとは考えていませんし、自己テスト自体をスケジュールしているとも思いません！

— MadHatterは、モニカをサポートします14

10

あなたの質問に答えるために、SMARTテストの失敗は、差し迫ったドライブ障害の確実な兆候です。潜在的なデータ損失を防ぐために、できるだけ早くデータをバックアップし、ドライブを交換する必要があります。

@ sj0hは447,630という非常に高いロードサイクルカウントに言及しました。（最新のハードドライブは、600,000回のロード/アンロードサイクルに耐えるように設計されています。）これは通常、数秒後にヘッドを駐車（プラッターからアンロード）して電力を節約しようとするAdvanced Power Management（APM）機能が原因です。アイドル。必要に応じて、ヘッドをプラッターに戻します。ハードドライブが断続的なオン/オフ動作を行うほとんどのシステムでは、これにより多くのロード/アンロードサイクルが発生する可能性があります。APMをオフにするには、ルートプロンプトで次のコマンドを実行します。

smartctl -s apm,off /dev/sda

このコマンドは、システムの電源を入れ直すかスリープ状態にするたびに、またはドライブの電源を切るたびに実行する必要があります。ドライブの電源を切るとこの設定は保持されないためです。

私の経験では、これを行うとロード/アンロードサイクルの数が劇的に減少し、その結果、将来この種の障害が再び発生する可能性があります。ただし、これを行うと消費電力とドライブ温度が増加することに注意してください。ドライブが常に50°Cを超える温度で動作している場合、早期故障のリスクが高まるため、暖かい月にはAPMをオンのままにする（またはオフの場合はオンにする）ことをお勧めします。

— bwDraco
ソース

2

読み取りエラーとは別に、ロードサイクルカウントも考慮します。500,000に近い場合、これは失敗の理由、または少なくとも高負荷サイクル摩耗を示している可能性があります。電源投入時間の1分ごとに負荷サイクルがあります。ドライブを交換した後、新しいドライブもこれを行っていないことを確認してください。

— sj0h
ソース

非常に良い観察。ドライブが毎分スピンダウンおよびバックアップする理由をどのように診断できますか？

— dotancohen

@dotancohen、私の答えを見てください。APMのせいです。

— bwDraco 14年

2

はい、16セクターが読めません。ドライブのほぼ同じエリアですべて失敗したいくつかのテストを実行しようとしたため、高速でバックアップしますが、データの近くに既にアクセスできないことに注意してくださいセクター92290592、92290596。

他の問題のある領域があるかもしれませんが、それらの16セクターが連続しているか広がっているかはまだわかりません。バックアップ後にプレイしたい場合は、-t select、startlba-endlbaを使用して選択的セルフテストを実行できます。

Current_Pending_Sectorは、ハードウェアファームウェアがそれを読み取ろうとしたができないことを意味します。OSが要求するたびに、失敗してOffline_Uncorrectableとしてマークするか、破損したセクターを別のスペアセクターに置き換えるまで、さらに数回試行しますOSはそれに書き込みます（そうするとReallocated_Sector_Ctが増加します）。

— ホルヘ・ネリン
ソース

1

私は個人的にドライブを交換します。何らかの理由でまだそれを行いたくないが、まだドライブを使い続けている場合は、新しいファイルに誤って悪い領域を使用しないようにするための何らかの方法が必要です。

ビデオを録画するだけの古いMacでこのようなドライブを使用しましたが、ビデオは持っているだけでいいので、まだ変更したくないと判断しました。そのため、エラーを分離する必要がありました。まず、不良ファイル専用の空のフォルダを作成し、次にディスク上のすべての既存ファイルを読み取ろうとしましたが、エラーのあるファイルはすべてbad-files-directoryに移動しました（できれば重要ではありません）。

次に、一意の名前を付けた1メガバイトのファイルを多数作成してハードドライブをいっぱいにし（したがって、すべての空のスペースがこれらの1 MBファイルのいずれかになりました）、手順を繰り返しました。エラーのあるすべてのファイルはbad-files-directoryに移動され、残ったファイルは良好で、削除して不良スペースを取り戻すことができました。

ドライブをもう少し使用できるようになりましたが、重要なものには使用しないでください。それはさらに失敗し、それが起こると不便になるでしょう。

— ソルビョーン・ラヴン・アンデルセン
ソース

1

これはあまり良い兆候ではありません。ディスクの内容がバックアップされていることを確認し、重要なことにはディスクを使用しないでください。

ただし、セクターを再割り当てして障害が発生したセクターが何年も使用されたままになっているディスクを見てきました。そのため、重要でないものや追加のバックアップなど、しばらく保持することができます。

次に、読み取り不能なセクターによってどのファイルが破損したかを確認し、これらのセクターに書き込み、ディスクによる再割り当てを強制します（「Current_Pending_Sector」から「Reallocated_Sector_Ct」に移動します）。Linuxを使用している場合は、http：//smartmontools.sourceforge.net/badblockhowto.htmlを参照してください。セクターが再割り当てされると、セルフテストはパスするか、読み取り不能なセクターを報告する必要があります。

私は、不良セクターが差し迫った失敗の兆候であるとは必ずしも思わないという点で、ほとんどの回答に同意しません。以下のようhttp://blog.mmueh.net/index.php/2010/12/09/luks-meets-badblocks/は言う、「すべてのハードドライブが起動は、その生活の中でいくつかの点で不良セクタを生成します」。

— a3nm
ソース

不良セクターが発生することで障害が確実ではないことに同意しますが、1つの不良セクターの後にドライバーが障害を起こす可能性が大幅に増加します（Googleレポートにもあったと思いますが、実際のソースは現在見つかりません）

— デニスノルテ14年