平均故障時間（MTTF）：ディスクメーカーがこれを投稿するとき、それらの数値をどのように解釈すべきですか？

10

通常、平均故障時間（MTTF）は時間で表され、いくつかの計算を行うと、かなりの年数が経過した後にのみディスクが故障するように見えます。

ディスクはそれよりも頻繁に修復する必要があるようです。これがなぜそうであるか誰か知っていますか？

私はこの測定基準について何か怪しいことがあると考えました。ここで何か間違っていると解釈していますか？

— ケイトリン・マクモーディ
ソース

14

最初に：

MTTF =平均故障時間
MTTR =平均修理時間
MTBF =平均故障間隔= MTTF + MTTR

修理には1時間かかる場合があり、MTTFは数万時間になる場合があるため、MTBFは多かれ少なかれMTTFと同じです。しかし、欠陥のある製品は修理されず、単に交換されるため、MTBFはしばしば適用されません。

MTTF計算は複雑な統計的手法であり、個々の部品がすべて故障する確率を計算します。そして、人々が時々推測するように、それは線形のものではありません。1000 000時間のMTTFがある場合、それは1000デバイスで1000時間後に1つが失敗すること、または1時間後に1000 000デバイスで失敗することを意味しません。
多くの電子機器は「バスタブ曲線」に従います、

ここに画像の説明を入力してください

早い段階で多くの障害が発生し、障害がほとんど発生せず、寿命が近づくと、障害の数は再び増加します。ハードディスクには、より直線的な故障曲線を持ついくつかの機械部品もあります。これは1日目からゆっくりと増加します。

たとえば、製造元が1000 000時間のMTTF（ほとんどの場合POH、つまり電源投入時間）を示している場合、平均してドライブが100年以上持続する必要があることを意味します。一部のドライブはより長持ちし、一部は先に故障します。したがって、1000 000時間にもかかわらず、1000時間後に障害が発生する可能性は完全にあります。1週間以内にドライブが故障したことがありましたが、バスタブのカーブを思い出してください。交換用ドライブは5万時間以上正常に回転しています。

— スティーブンフ
ソース

3

注目に値するいくつかのことは、初期の障害がしばしばバーンインと呼ばれるという事実かもしれません。初期故障がはるかに少ないメーカーは、デバイスをバーンインフェーズで実行することがよくあります。また、純粋なエレクトロニクスは、期間外の摩耗とだけ火傷を示さないこと。

— Kortuk

1

MTTF（またはMTBF）を計算するときは、通常、単一の分布のみを使用して失敗をモデル化していることに注意してください。したがって、計算は、「乳児死亡率」、「通常の寿命」、または「寿命末期の消耗」の分布に基づいています。基本分布としてワイブルを使用している場合、これら3つの分布を区別する唯一のものは、ワイブル形状パラメーターです。故障が「通常の寿命」の分布から生じる唯一のケースは、時間が故障率に影響を及ぼさない場合であり、したがって、分布は指数関数的です。

2

MTTFは主に、デバイスまたはウィジェットに期待する生活の種類を示すものとして役立ちます。明らかな理由により、デバイスの故障日を正確に予測することはできません。これは、利用可能なデータの統計分析に基づく推定にすぎず、そのようなものとしてのみ考慮してください。予算編成（ここでコストを償却または減価償却する期間）と計画（次のウィジェットを取得する前にウィジェットが実行されると予想される期間）に役立ちます。

— music2myear '25年

まず、「ディスク障害」とは正確には何ですか？

— Kaitlyn Mcmordie、2011年

2

@Kaitlyn-私はあなたが不良セクターを参照していると思います。ディスク障害は、ドライブからの読み取りまたはドライブへの書き込みができなくなったときだと思います。通常は、ヘッドクラッシュなどの機械的エラーです。これは通常、まだ十分なセクターが残っている場合に発生します。

— stevenvh

4

機器のMTBFが1,000,000時間である場合、それは、機器が1,000,000時間続くと予測できることを意味しません。むしろ、おおよそ、定格耐用年数内にある1,000,000個の機器がそれぞれ1時間稼働した場合、または10時間稼働した（ただし、定格寿命内にある）10万個、または1分間に60,000,000等の場合です。ロットにはおおよそ1つの障害があります。定格耐用年数はMTBFと完全に直交していることに注意してください。次の2つのタイプのウィジェットを検討してください。

すべてのウィジェットは、年齢に関係なく、0.1％の確率で1時間ごとに失敗します。
10億個のウィジェットのうち、1個を除くすべてが正確に61分間動作し、その後死にます。それは30分後に死にます。ウィジェットのサービス寿命は60分に指定されています。

最初のタイプのウィジェットの平均寿命は約1,000時間で、MTBFは約1,000時間です。2番目のサービスの平均ライフタイムは61分ですが、MTBFはサービスライフタイム内で1,000,000,000時間です。2番目のデバイスのMTBFが予想寿命のほぼ10倍であると言うのは奇妙に思えるかもしれませんが、MTBFはほとんど意味のない数字です。

1,000,000台のデバイスがすべて1時間完全に動作することを要求する実験を行うとします。その後、それらはすべて廃棄されます。いずれかのデバイスが失敗すると、実験全体が台無しになります。平均して1,000時間続くが、MTBFが1,000時間しかないデバイス、または最大61分持続するが、10億分の1の確率でエラーが発生するデバイスそのマークに会いますか？

— スーパーキャット
ソース

つまり、10 ^ 6時間のMTBFを特定のディスクの「平均寿命」としてではなく、複数のディスクの寿命に関する測定値として見るべきではないということです。

— Kaitlyn Mcmordie、2011年

@Kaitlyn Mcmordie：「ライフタイム」という用語は実際には当てはまりません。死は失敗を意味するものではなく、その逆も同様です。ストレージデバイスのメーカーは、データの損失を回避するために従うべき手順を指定する場合があります。そのような手順には、「差し迫った障害」を示すデバイスからすべてのデータを新しいデバイスに移動することが含まれます（データがコピーされた後、古いデバイスは「デッド」と見なされます）。そのようなイベントによってデータの損失が発生しなければ、それは障害ではありません。どのデバイスからでも発生するデータ損失は、健康に見えるデバイスであっても、失敗です。寿命とは関係ありません。

— スーパーキャット'26年

2

stevenvhの答えに加えて：よく知られているディスクメーカーはすべて、電子部品のメーカーと同様に、新しいデバイスのバーンインを実行します。ハードディスクには、全体的なMTBFとMTTFだけでなく、ディスクのブロックの個々の障害統計も含まれます。つまり、ディスクの「プラッタ」の回転の一部が失敗する可能性がありますが、大部分は引き続き読み取り/書き込みは可能です。いわゆる「不良セクター」は検出され、ドライブ内のファームウェアによってマッピングされます。

現在、すべてのドライブには予備のセクターが含まれており、欠陥セクターの代わりに使用できます。これは、単に製造元による予防策です。これを行わない場合、指定された容量でディスクを販売できません。隠れたセクターの追加x％を予備として組み込むと、コストは<x％増加しますが、全体的な生産歩留まりは大幅に向上します。

今日のディスクは、適切なソフトウェアで読み取ることもできる不良セクターの数を保持しています。これと他のディスクヘルスパラメータ（温度など）はSMART値と呼ばれます。

ここで、製造元がドライブのバーンインテストを実行し、一部のセクターでほぼ障害が発生し、ドライブの内部ファームウェアによって再マップされると、「不良セクター数」のSMARTパラメーターが0に設定されます。次に、ドライブは顧客に配達されます。

通常、バーンインプロセスの後、すでに言及されているバスタブ曲線の始まりは、お客様には見えなくなります。私たちは幸運であり、時間の経過とともに故障の可能性が増加するだけです。

そのため、製造元が引用しているMTTFを見ると、実行する必要がある可能性のあるすべての障害モデリングについて、バスタブ曲線の開始を無視できます。

— cfi
ソース

ありがとうございました。ところで、「サーバー障害」という言葉の意味が何かわかりますか？

— Kaitlyn Mcmordie、2011年

明白な意味は、他の人にサービスを提供するコンピュータが遭遇するエラーです。そして、私はそれはあなたが上の質問をすることになっている時であると信じていserverfault.com ;-)はそれについて何かを見つけることができませんでしたFAQに

— CFI

-2

これをマーケティングとして解釈する必要があります。彼らは実際には正確なMTBF（平均故障間隔）を知らないため、さまざまなトリックを使用して推定し、コストを正当化するために「エンタープライズ」ドライブの数値を高く表示しています。

実際には、HDDメーカーにとって、保証が終了した直後にHDDを故障させることは有益です。

陰謀論として、私はSeagate 7200.11の大規模な失敗は保証が終了する前にディスクが故障する原因となる「プログラムされた死」を実装する際の間違いであったため、ファームウェアの更新によってそれを「修正」する必要があったと信じています。

— バーモンスター
ソース

私はこの陰謀論を買っていません。

1

@Federico Russo：なぜ？これは通常の開発者のエラーで、特定の時間数が経過するとHDDが回復不可能な状態でロックされると思いますか？

— BarsMonster 2011年

2

-1：MTBF数を決定するために統計分析が使用され、特定の統計で既知である-それらは「さまざまなトリック」を使用しているだけではありません。エンタープライズドライブは数が多い、HDDメーカーは保証の終了後にドライブが故障する、そしてSeagateはドライブにあらゆる種類の「プログラムされた死」を実装するという主張を裏付けるために、いくつかの重要な情報源が必要になります。

— ケビンフェルメール

1

ドライブメーカーにとっては、競合他社よりも高いMTTFを示すことが最も重要です。+1

— tyblu

ディスク障害とは正確には何ですか？何が重要ですか？

— Kaitlyn Mcmordie、2011年