通常、平均故障時間(MTTF)は時間で表され、いくつかの計算を行うと、かなりの年数が経過した後にのみディスクが故障するように見えます。
ディスクはそれよりも頻繁に修復する必要があるようです。これがなぜそうであるか誰か知っていますか?
私はこの測定基準について何か怪しいことがあると考えました。ここで何か間違っていると解釈していますか?
通常、平均故障時間(MTTF)は時間で表され、いくつかの計算を行うと、かなりの年数が経過した後にのみディスクが故障するように見えます。
ディスクはそれよりも頻繁に修復する必要があるようです。これがなぜそうであるか誰か知っていますか?
私はこの測定基準について何か怪しいことがあると考えました。ここで何か間違っていると解釈していますか?
回答:
最初に:
MTTF =平均故障時間
MTTR =平均修理時間
MTBF =平均故障間隔= MTTF + MTTR
修理には1時間かかる場合があり、MTTFは数万時間になる場合があるため、MTBFは多かれ少なかれMTTFと同じです。しかし、欠陥のある製品は修理されず、単に交換されるため、MTBFはしばしば適用されません。
MTTF計算は複雑な統計的手法であり、個々の部品がすべて故障する確率を計算します。そして、人々が時々推測するように、それは線形のものではありません。1000 000時間のMTTFがある場合、それは1000デバイスで1000時間後に1つが失敗すること、または1時間後に1000 000デバイスで失敗することを意味しません。
多くの電子機器は「バスタブ曲線」に従います、
早い段階で多くの障害が発生し、障害がほとんど発生せず、寿命が近づくと、障害の数は再び増加します。ハードディスクには、より直線的な故障曲線を持ついくつかの機械部品もあります。これは1日目からゆっくりと増加します。
たとえば、製造元が1000 000時間のMTTF(ほとんどの場合POH、つまり電源投入時間)を示している場合、平均してドライブが100年以上持続する必要があることを意味します。一部のドライブはより長持ちし、一部は先に故障します。したがって、1000 000時間にもかかわらず、1000時間後に障害が発生する可能性は完全にあります。1週間以内にドライブが故障したことがありましたが、バスタブのカーブを思い出してください。交換用ドライブは5万時間以上正常に回転しています。
機器のMTBFが1,000,000時間である場合、それは、機器が1,000,000時間続くと予測できることを意味しません。むしろ、おおよそ、定格耐用年数内にある1,000,000個の機器がそれぞれ1時間稼働した場合、または10時間稼働した(ただし、定格寿命内にある)10万個、または1分間に60,000,000等の場合です。ロットにはおおよそ1つの障害があります。定格耐用年数はMTBFと完全に直交していることに注意してください。次の2つのタイプのウィジェットを検討してください。
最初のタイプのウィジェットの平均寿命は約1,000時間で、MTBFは約1,000時間です。2番目のサービスの平均ライフタイムは61分ですが、MTBFはサービスライフタイム内で1,000,000,000時間です。2番目のデバイスのMTBFが予想寿命のほぼ10倍であると言うのは奇妙に思えるかもしれませんが、MTBFはほとんど意味のない数字です。
1,000,000台のデバイスがすべて1時間完全に動作することを要求する実験を行うとします。その後、それらはすべて廃棄されます。いずれかのデバイスが失敗すると、実験全体が台無しになります。平均して1,000時間続くが、MTBFが1,000時間しかないデバイス、または最大61分持続するが、10億分の1の確率でエラーが発生するデバイスそのマークに会いますか?
stevenvhの答えに加えて:よく知られているディスクメーカーはすべて、電子部品のメーカーと同様に、新しいデバイスのバーンインを実行します。ハードディスクには、全体的なMTBFとMTTFだけでなく、ディスクのブロックの個々の障害統計も含まれます。つまり、ディスクの「プラッタ」の回転の一部が失敗する可能性がありますが、大部分は引き続き読み取り/書き込みは可能です。いわゆる「不良セクター」は検出され、ドライブ内のファームウェアによってマッピングされます。
現在、すべてのドライブには予備のセクターが含まれており、欠陥セクターの代わりに使用できます。これは、単に製造元による予防策です。これを行わない場合、指定された容量でディスクを販売できません。隠れたセクターの追加x%を予備として組み込むと、コストは<x%増加しますが、全体的な生産歩留まりは大幅に向上します。
今日のディスクは、適切なソフトウェアで読み取ることもできる不良セクターの数を保持しています。これと他のディスクヘルスパラメータ(温度など)はSMART値と呼ばれます。
ここで、製造元がドライブのバーンインテストを実行し、一部のセクターでほぼ障害が発生し、ドライブの内部ファームウェアによって再マップされると、「不良セクター数」のSMARTパラメーターが0に設定されます。次に、ドライブは顧客に配達されます。
通常、バーンインプロセスの後、すでに言及されているバスタブ曲線の始まりは、お客様には見えなくなります。私たちは幸運であり、時間の経過とともに故障の可能性が増加するだけです。
そのため、製造元が引用しているMTTFを見ると、実行する必要がある可能性のあるすべての障害モデリングについて、バスタブ曲線の開始を無視できます。
これをマーケティングとして解釈する必要があります。彼らは実際には正確なMTBF(平均故障間隔)を知らないため、さまざまなトリックを使用して推定し、コストを正当化するために「エンタープライズ」ドライブの数値を高く表示しています。
実際には、HDDメーカーにとって、保証が終了した直後にHDDを故障させることは有益です。
陰謀論として、私はSeagate 7200.11の大規模な失敗は保証が終了する前にディスクが故障する原因となる「プログラムされた死」を実装する際の間違いであったため、ファームウェアの更新によってそれを「修正」する必要があったと信じています。