異なるメーカーが異なるSMART値を持っているのはなぜですか?


23

まず第一に、メーカーが認めたい以上にハードドライブが故障することは誰もが知っていると思います。Googleは、ハードドライブのSMARTステータスが報告する特定の生データ属性が、ドライブの将来の障害と強い相関関係を持つ可能性があることを示す調査を行いました。

たとえば、最初のスキャンエラーの後、ドライブはそのようなエラーのないドライブよりも60日以内に39倍故障する可能性が高いことがわかります。再割り当て、オフライン再割り当て、および保護観察カウントの最初のエラーも、高い障害確率と強く相関しています。これらの強力な相関関係にもかかわらず、故障したドライブの大部分がSMARTエラー信号をまったく示さなかったことを考えると、SMARTパラメータのみに基づく故障予測モデルは予測精度が大幅に制限される可能性が高いことがわかります。

Seagateは、ソフトウェアのみがドライブの正確なステータスを正確に判断できると主張し、ソフトウェアがSMART属性の生データ値を通知しない方法で、ドライブに関するこの情報を隠そうとしているようです。Western Digitalは私の知る限りそのような主張をしていませんが、彼らのステータスレポートツールは生データ値もレポートしていないようです。

各属性の生データ値を収集するために、smartmontoolsのHDtuneとsmartctlを使用しています。確かに...特定の属性に関しては、リンゴとオレンジを比較しています。たとえば、ほとんどのSeagateドライブでは、数百万の読み取りエラーがあると報告されますが、ウェスタンデジタル99%は読み取りエラーに対して0を示します。また、Seagateは何百万ものシークエラーを報告しますが、Western Digitalは常に0を報告するようです。

Q:このデータを正規化するにはどうすればよいですか?Seagateは何百万ものエラーを生成していますが、Western Digitalは何も生成していませんか?SMARTステータスに関するウィキペディアの記事によると、製造業者にはこのデータを報告するさまざまな方法があります。

私の仮説は次のとおりです。

データを正規化する方法を見つけたと思います(正しい用語ですか?)。

Seagateドライブには、Western Digitalドライブにはない追加の属性があります(ハードウェアECCリカバリ済み)。ECC回復カウントから読み取りエラーカウントを差し引くと、おそらく0になります。これは、Western Digitalが報告した「読み取りエラー」カウントと同等のようです。これは、Western Digitalが修正できない読み取りエラーのみを報告し、Seagateがすべての読み取りエラーをカウントし、修正できたエラーの数を通知することを意味します。

読み取りエラーカウントがECCリカバリカウントよりも少ないSeagateドライブがあり、ファイルの多くが破損していることに気付きました。これが私の仮説を思いついた方法です。シーゲイトが生成する何百万ものシークエラーは未だに謎です。

追加情報がある場合は、私の仮説を確認または修正してください。

ここに私の西部のデジタルドライブのスマートステータスがありますので、私が話していることを見ることができます。

james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD1001FALS-00E3A0
Serial Number:    WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   175   021    Pre-fail  Always       -       4033
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       270
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1468
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       262
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       46
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       223
194 Temperature_Celsius     0x0022   105   102   000    Old_age   Always       -       42
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

編集:ここで私が話していたSeagateドライブはデータ破損の原因でした。このデータはHDTuneからのものです。

HD Tune: ST3250623A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         45       38       6        77882492   Ok       
(03) Spin Up Time                99       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       640        Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             85       60       30       359872048  Ok       
(09) Power On Hours Count        94       94       0        6028       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           100      100      20       689        Ok       
(C2) Temperature                 25       55       0        25         Ok       
(C3) Hardware ECC Recovered      50       47       0        201555081  Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      199      0        1          Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6028
Health Status         : Ok

ハードウェアECCリカバリがRaw読み取りエラーレートよりも大きいという事実は、私の意見では直観に反しています。

これは、ECC RecoveredがRaw Read Error Rateと一致する「通常の」シーゲイトドライブであることがわかりました。

HD Tune: ST380011A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         62       46       6        79986164   Ok       
(03) Spin Up Time                98       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       6          Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             83       60       30       210309663  Ok       
(09) Power On Hours Count        93       93       0        6516       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           99       99       20       1325       Ok       
(C2) Temperature                 25       52       0        25         Ok       
(C3) Hardware ECC Recovered      62       46       0        79986164   Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      188      0        18         Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6516
Health Status         : Ok

編集:

Googleは一般的にSMARTを役に立たないと考えていることを知っていることを明確にしたい。誰もが自分のデータをバックアップする必要があることを知っています。しかし、私は他の人のコンピューターを修理する仕事をしています。ほとんどの人はバックアップもRAIDも持っていません。企業がハードドライブのトラブルシューティングを行うのは費用対効果が高くないため、ハードドライブが死ぬまでRAIDで実行するだけです。私の仕事の中で、ハードドライブのSMARTステータスを確認すると便利だと思います。30秒ほどかかります。不良ドライブがスキャンエラーや再割り当てされたセクターなどの失敗のヒントを表示するのに十分幸運であれば、そこからドライブを完全に取得することを知っています。そのようなヒントが存在しない場合、ハードドライブが不良であることが最終的に判明するまで、おそらく低速化とデータ破損のトラブルシューティングに何時間も費やします。

このプロセスを微調整しようとしています。


管理メニューの(と思う)ディスク管理の下に、スマートベースの情報があります。smartctlに追加の機能があるかもしれませんが、私はしばらく使用しておらず、目の前に持っていません。
ジャービン

@DanこんにちはDan、あなたが話しているWindowsツールはわかりません。明確にできますか?
ジェームズT

SMARTの問題は、少し間違っていることです。実際のインテリジェンスはなく、数個の方程式のみ(おそらくヒューリスティックでもない)。できることは、それ自体を監視し、数値を報告することだけです。たとえば、電源コードが正しく接続されていないドライブがあり、それが数回非常に迅速にオンとオフを切り替えました(「死の音」の音がします)。コネクタを装着し直したので、今はスムーズに動作しますが、一時的な(修正可能な)障害のために、SMARTでRRERイベントを永続的に記録し、障害のように見えます。
Synetech

回答:


14

ここに見られるように、メーカーによっては根本的に異なるものに対してSMART値を使用しているようです

ReadyNASのハードディスクが、高いSMART Raw読み取りエラー率、シークエラー率、およびハードウェアECCリカバリを報告しています。私は何をすべきか?

Seagateは内部カウントにこれらのSMARTフィールドを使用するため、これはSeagateディスクの既知の問題です。他のフィールド、特にReallocated Sector CtとATA Error Countで異常なカウントを探します。

あなたの実際の質問になると...

不良ドライブがスキャンエラーや再割り当てされたセクターなどの失敗のヒントを表示するのに十分幸運であれば、そこからドライブを完全に取得することを知っています。そのようなヒントが存在しない場合、ハードドライブが不良であることが最終的に判明するまで、おそらく低速化とデータ破損のトラブルシューティングに何時間も費やします。

いい経験則は、同じドライブの製造元、さらには同じドライブのモデル内でのみSMART設定が同等であると期待できるということです。

したがって、これらのSMARTカウントの診断を検討しているときは、そのことに留意してください。あるメーカーの「読み取りエラー再試行カウント」は、他のメーカーとはまったく異なるものを意味する場合があります。悲しいが本当。:(


14

さて、まずあなたの前提に同意しません。

Googleは、ハードドライブのSMARTステータスが報告する特定の生データ属性が、ドライブの将来の障害と強い相関関係を持つ可能性があることを示す調査を行いました。

実際、彼らは反対を見つけました。

...故障したドライブの大部分がSMARTエラー信号をまったく示さないことを考えると、SMARTパラメータのみに基づく故障予測モデルは予測精度が大幅に制限される可能性が高いことがわかります。

第二に、SMARTしきい値は標準化されていません。ドライブ自体のファームウェアは、属性に「事前障害」のフラグを立てますが、生の値はユーザーにとって無意味です。たとえば、Seagateは次のように述べています

特定のしきい値制限に対して、さまざまな属性が監視および測定されています。いずれかの属性がしきい値を超えると、一般的なSMARTステータステストが合格から不合格に変わります。

サードパーティのSMARTソフトウェアによって読み取られる可能性のあるSMART値は、Seagateハードドライブ内での値の使用方法に基づいていません。Seagateは、個々のSMART属性としきい値を読み取ると主張するソフトウェアプログラムのサポートは提供していません。古いドライブにはいくつかの歴史的な正確さがありますが、新しいドライブには、新しいソリューション、属性、およびしきい値が組み込まれていることは間違いありません。

tl; dr要約:

生のSMART値はほとんど意味がありません。メーカーごとに異なる方法で使用され、しきい値なども異なるためです。ドライブファームウェア自体は、「事前障害」にあるかどうかを通知します。非常に信頼性が高いです。

定期的にバックアップしてください!


あなたのコメントに基づいて、あなたが私の記事全体を読んでいるようには見えません。これが、私がすべての背景情報と引用を入れる理由です。Googleを引用しましたが、ごく一部のみを引用しています。見積もりの​​直前に部品を読んだ場合、再割り当てされたセクターカウントなど、一部の属性には強力な障害相関があることが示されています。メーカーは、1つの再割り当てされたセクターの後、ドライブが故障前の状態にあると報告しません。これは、生データを調べることで、ドライブの状態をより適切に示すことができることを明確に示しています。
ジェームズT

また、シーゲイトドライブがデータを破損しており、生データの値が健康的なドライブであることがわかったこととは著しく異なっていたことを付け加えます。製造元がしきい値を設定する場所に問題があることは明らかです。
ジェームズT

私の投稿とリンクを再度読む必要があると思います。生のSMART値はありませんが、信頼性指標は何も。Googleのレポートでは、「一部の属性には強力な故障相関がある」とは記載されていません。それは事実にもかかわらず、発言権を「自分FiありスキャンエラーをRSTた後、ドライブが39倍以上の可能性が60日以内に失敗することがないようにエラーが発生したドライブよりも」されないことをことを何、故障したドライブの人口の15%未満が持っていたすべてのスキャンエラー。時間の15%が正しい場合、それは信頼できる指標ですか?
sml

1
@scottl 15%をどこから得たのかわかりません。私は記事でそれを見ませんでした。ドライブの15%だけにスキャンエラーがあったとしても、スキャンエラーのあるドライブは60日間で39倍故障する可能性が高いことがわかりました。これは、スキャンエラーがない限り、ドライブが故障しないという意味ではありません。これは、スキャンエラーが発生した場合、ハードドライブの残りの寿命がおそらく短いことを意味します。統計を取ったことがありますか?とても便利だと思いました。
ジェームズT

1
smartmontools FAQには、生のSMART属性(温度、パワーオンライフタイムなど)がベンダー固有の構造に格納されています。時々これらは奇妙です。日立製ディスク(少なくともそれらのいくつか)は、数時間ではなく数分で電源投入時の寿命を保存します(次の質問を参照)。IBMディスク(少なくともそれらのいくつか)には、1つだけでなく、生の構造に3つの温度が保存されています。等々。
sml

4

あなたが尋ねているという質問が何であるかは正確にはわかりません。質問と回答は1つにまとめられているようですが、...

ハードドライブのメトリックをSeaToolsから提供されたメトリックと比較しましたか

Seagateの標準ハードウェア診断ツールであり、最も一般的に使用されているHDD診断ツールです。

ツールが競合他社について好ましくない結果を報告する場合でも、驚かないでください。このツールは一般にすべてのメーカーのHDDで動作しますが、それは競合他社が見栄えを良くしているという意味ではありません。

「もちろん、この統計を除いて、すべての統計の99.99%が真実です」という冗談を聞いたことはありませんか。


1
うん...それは少し混乱しています。基本的に、質問の前によく知っているすべての背景情報と、質問の後のすべてのテストと推測を入力します。「このデータを正規化する方法は?」という質問があります。基本的に..あるメーカーのすべてのデータ属性を別のメーカーのデータ属性と同じものにするにはどうすればよいので、正確に比較できます。
ジェームズT

@James可能な限り多くの違いからデータを収集し、データを互いに異なるように解釈する場合、それぞれの方法を把握することができます。彼らはすべて正しいデータを報告しているかもしれませんが、あなたが指摘したように異なる方法でそれを解釈しているだけかもしれません。それが統計引用を追加した理由です...データが良いからといって、解釈が正しいという意味ではありません。
エヴァンプライス

2
うん、それは私がやったことです。70以上の異なるハードドライブをチェックしましたが、シークエラーと読み取りエラーの大きな違いは、私に突き刺さった属性です。シーゲイトドライブの場合、読み取りエラーはハードウェアeccの回復と何らかの関係があると推測します。私はその関係が何であるか正確にはわかりません。ここの誰かが教えてくれることを望んでいた。また、なぜシーゲイトドライブのシークエラー数が膨大であるのに、ウエスタンデジタルには常にゼロがあるように見えるのかを教えてくれることを期待していました。
ジェームズT

@James誰かがもっと良い答えを出すかもしれません...私の正直な推測では、Western Digitalはおそらく正確なSMART仕様に従っていません。これはハードウェア標準の問題であり、優れたセールスポイントですが、完全な仕様に従わずにすべてのメリットを売り込むメーカーが常にいくつかあります。
エヴァンプライス

標準からの逸脱は、私が考えたものであり、ウィキペディアの記事が示唆しているものです。2つのメーカー(および場合によっては他のメーカー)を適切に比較できるように、それらの違いを知りたいと思います。コメントをありがとうエヴァン。うまくいけば、他の人にも質問が明確になることを期待しています。
ジェームズT

2

ハードドライブ内部の物理的な現実では、100 MBを超えるすべてのブランドのハードドライブには、多くの物理的な読み取りエラーがあります。それらのほとんどはECCによって安全に修正され、一部(できればごくわずか)がECCによって誤って修正され、残り(少数ではあるが誤った修正以上)が読み取り失敗としてコンピューターに報告され、ドライブが自動的に再配置されるようにする必要があります不良セクター。

未加工の読み取りエラーの修正に加えて、ECCはハードウェアは問題ないと判断したが、返されたビットがわずかに間違っていた読み取りも修正します。したがって、修正されたECCは「raw読み取りは失敗したがECCによって修正された+ raw読み取りは成功したが間違っていてECCによって修正された」可能性があります。

したがって、データの2つの解釈が可能と思われます。

A. Seagate以外のドライブでは、「raw読み取りエラーカウント」にECC修正済み読み取りエラーは含まれず、修正不可能なエラーのみが含まれます。

B.低レベルの回路が気付かなかったとしても他の人が気付かない場合でも、ECCがデータに問題を発見した場合、シーゲイトはそれを読み取りエラーと見なします。

正規化は、正しい理論(AまたはB)によって大きく異なります。


>また、ドライブが不良セクタを自動的に再配置する必要があります。次に、修正不可能なセクター数の 再配置イベント数現在の保留中のセクター数フィールドの関係は何ですか?電流を増やしてから、移転する修正不能になりませんか?なぜ修正できないのですか?不良セクタの再マッピングを試みて失敗した場合(つまり、スペアセクタが不良である場合)、別のスペアセクタへの再マッピングを試行すべきではありませんか?スペアが1つしかないのはタイヤではありません。
Synetech

100 MB?100 GBを意味しますか?
ピーターモーテンセン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.