大容量ドライブの高い故障率?


24

私は最近、5台の1TBドライブを搭載したサーバーを展開しました(ブランドについては言及しませんが、2つのうちの1つでした)。友人は、MTBFが非常に低いことを教えてくれたので、最初は大容量のドライブを入手することに対して警告を受けましたが、技術が処理できます。

それ以来、5つのディスクのうち3つが故障しています。ありがたいことに、次のディスクが故障する前にアレイを交換して再構築することができましたが、非常に心配しています。

あなたの考えは何ですか?私はちょうどそれらを悪いバッチで手に入れましたか?または、新しい/大容量のディスクは、試してテストしたディスクよりも故障する可能性が高いですか?


2
ブランドに言及しないのはなぜですか?あなたのバッチは7200.11 cudasであり、これは早期死亡傾向があることが知られています。
ダニ

実際、彼らは...西洋Digitalsあった
マーク・ヘンダーソン

記録のためだけに、私はそれらすべてを取り戻し、すべて新しいものを入手しました。そして、それらは問題なく2か月間実行されています。
マークヘンダーソン

私も同じような経験をしました。16個の1.5TBドライブ。最初の4か月で、4つのハード障害が発生しました。次の3年間で、1つのソフトが故障しました。
デビッドシュワルツ

回答:


19

あなたはおそらく悪いバッチを得た。そのため、同じバッチのディスクから構築されたアレイを展開することに不安があります-それらは同様の寿命を持っている可能性が高いため、1つが故障した場合に交換を非常にエキサイティングにする可能性があります。

ドライブに何らかの設計上の欠陥があることは不可能ではありません。それは以前に間違いなく起こりました。しかし、通常、インターネットは、何かについて見つける通常のバックグラウンドノイズとは対照的に、実際に何か問題がある場合、ドライブに関する苦情でいっぱいです。


6
+1これを緩和するために、購入のスペースを空けるか、さまざまな商人から調達するか、ブランドを混ぜてみてください。
ロブ・アレン

または、同じ場所から同時にソースされたドライブを「焼き付ける」ことで軽減できます。数時間/日の間、それらに対して書き込み集中プログラムを実行します。持続時間をずらして、異なるエージングをシミュレートします。擬似乱数データを書き出し、それを読み直して検証するDriveTestという簡単なプログラムを作成し、同時に「バーンイン」して簡単なテストデスクを実行しました。このヒントはSSDにはお勧めしません。
rkagerer

13

大規模な組織のリソースがない限り、これは答えるのが難しい質問です。ハードディスク障害に関するGoogleの調査をご覧ください。

ディスクを大量に購入するときは、バイトあたりのコストが最も低い大まかなディスクサイズを決定します。これは通常、最新よりも1世代古いものです。これは、彼らがその世代の信頼性を改善するという意味です。


1
現在、1.5〜2TBが最先端ですが、1TBは基準を満たしていませんか?彼らはかなり安いです。
マークランサム

非常に良い点。
ノックス

10

より多くのプラッター+より多くのヘッドは、失敗の可能性が高いことを意味します。

2つの一般的なWDハードドライブを使用する

640GB = 2つのプラッター
1TB = 3つのプラッター

    WD Black 640GB vs 1TB comparison

Drive Ready Time 11 sec  13
R/W Power watts  8.3     8.4
Idle Power watts 7.7     7.8
Standby watts    1       1
Max shock        300g    250g
Performance seek 29      33
Quiet seek       26      29

その余分なプラッタ=より多くのノイズ、より多くの電力使用、より多くの熱、より遅いドライブ準備時間、より衝撃損傷を受けやすく、より多くの振動。

1つのプラッターだけで同じドライブ設計を行った場合、スペックはさらに向上します。この場合、これらは消費者グレードのドライブですが、2倍のキャッシュと5年間の保証を備えたハイエンドの消費者グレードのドライブです。従来のハードドライブ(回転するプラッター)のブランドまたはスタイルに関するドキュメントを詳しく調べると、同様の計算が表示されます。プラッターが増えるとドライブの信頼性が低下するのは、純粋に物理的な問題です。

ジェフ・ヘンゲスバッハは、彼が言ったときも正しかった

「大きな」ドライブの主な関心事は、障害が発生したときの再構築時間です。ドライブが大きいほど、再構築に時間がかかるほど、追加のドライブ障害やアレイの損失の可能性が大きくなります。「大きな」ドライブでは、可用性のビジネス価値により、許容できるリスク(アレイの損失)のレベルが決まり、RAIDレベルの選択とドライブ数が増えます(ドライブが増えると、ドライブが故障する可能性が高くなります)。

Graeme Perrowの少量を追加します

5000万セクターのドライブには、500万セクターのドライブよりも不良セクターが発生する可能性が10倍あります。ここでは、大きなドライブと小さなドライブの故障率は同じであると仮定していますが、これはおそらく良い仮定ではありません

より多くの大皿=悪い
より多くの収納スペースは、混合バッグです。その長所と短所は多数あります。
セクターが多いほど、エラーが発生する可能性が高くなります。必ずしもスケールが線形ではなく、間違いなく要因です。

信頼性以上のスペースが必要な場合を除き、シングルプラッターまたはデュアルプラッタードライブを使用することをお勧めします。一部のメーカーは、同じ部品番号で複数のドライブを実際に販売するプラッターの数を公開することを避けているだけでなく、ドライブを注文したときに何が得られるかを知るには調査が必要な場合があります。

WD3200AAKSを例にとると、シングルプラッター320GBバージョンとデュアルプラッター320GBバージョン(160GB x 2)があります。さらに、複数のラベルとドライブハウジングが使用されているため、ドライブを簡単に確認して、どのプラッターが入っているかを知ることができません。知る唯一の方法は、WD3200AAKS-00B3A0とWD3200AAKS-75VYA0がオンラインで検索することです。どちらが単一のプラッターであるかを教えてくれますが、どの小売店があなたが手に入れるか教えてくれません。


1
ワオ。それはいくつかの詳細なものです!ありがとう!私は今まで可動部品(プラッター)の数さえ考慮していませんでした。
マークヘンダーソン

3

故障率が通常よりも高いことは、新しいテクノロジーを示していると思います。私はいつも車の最初のモデル年を買わないで、彼らがバグを解決するまで待つように言われました。同じことが、ハードドライブを含む他の多くのことにも当てはまると思います。


1
私は車のアナロジー全体を証明することができます(車のアナロジーは決して迷うことはありませんか?私は急いでいて、それをきちんと研究しなかったことを認めます、そして、私は今価格を払っています!
マークヘンダーソン

3

「大きい」ディスクのMTBFが高いかどうかはわかりません。750GBのドライブを一握り持つビッグネームシステムがありますが、過去2年以内に何も失敗していません(750年は2年前に「ビッグ」でした)。しかし、250GBが大きいときに構築されたビッグネームシステムも知っています。そのアレイは数回倒れました。MTBFの議論は、神聖な戦争のようなものです。

「大きな」ドライブの主な関心事は、障害が発生したときの再構築時間です。ドライブが大きいほど、再構築に時間がかかるほど、追加のドライブ障害やアレイの損失の可能性が大きくなります。「大きな」ドライブでは、可用性のビジネス価値により、許容できるリスク(アレイの損失)のレベルが決まり、RAIDレベルの選択とドライブ数が増えます(ドライブが増えると、ドライブが故障する可能性が高くなります)。

過去数年間、ビジネス用SATA / RAIDが登場しました。大手企業は、それが主要なサポートの問題または顧客の失望の原因になると知っていれば、それを提供するとは思わない。元のバッチの一部を置き換えたので、今後の信頼性を知りたいと思います。


1

それらはすべて同じコンピューターまたはディスクコントローラー上にありますか?アレイを再構築する必要があると言いました。この場合、コントローラ、電源、またはメモリに何らかの問題がある可能性があります。そうでない場合は、ドライブの不良バッチも推測します。また、その特定のコントローラーで使用している特定のドライブには互換性の問題がある可能性があります。

また、大きなディスクほどMTBFが高くなると人々が言うとき、それはどのように計算されるのでしょうか。2x250 GBと1x500 GBのディスクがあるとしましょう。たぶんこれは素朴ですが、2倍のデータを保持しているドライブは、それで失敗する可能性がありますか?MTBFに誤読や誤書き込みが含まれているかどうか、またはディスクが機械的に破損したことを意味するかどうかはわかりません。ハードディスクのMTBFに厳しい業界標準と定義があるかどうかは誰にもわかりますか?


1

確認するいくつかの事項を次に示します。1)ドライブのシリアル番号はかなり近いですか?もしそうなら、あなたは不完全なバッチを持っているかもしれません2)あなたのサーバーが住んでいる環境はどうですか?最近、他のハードウェアで障害が発生しましたか?3)ドライブはたまたまSeagate Barracudaドライブですか?これらのドライブには問題があります。このコンピューターワールドの記事を参照してください。4)これらのドライブはシステムの一部として付属していますか?それとも自分で購入しましたか?OEMドライブを購入した場合、ドライブを購入する前に慎重に取り扱ったことを保証する方法はありません。

私は個人的にハードドライブで信じられないほど運が良かった。故障したドライブは2つしかありません。それらの障害のうちの1つだけが、実際に使用していたドライブにありました。しかし、私の周りでは、多くの人がハードドライブのデータを失っています。


うーん、そう、彼らは非常に近く、すべてのですが、彼らはWDのではなく、Seagates、はい、彼らはOEMドライブだった...私はそこでは考慮していなかったいくつかのこと...だった
マーク・ヘンダーソン

1

大きなドライブの故障率が高くなるのは、ドライブのサイズの関数にすぎない可能性があります。5000万セクターのドライブには、500万セクターのドライブよりも不良セクターが発生する可能性が10倍あります。ここでは、大きなドライブと小さなドライブの故障率は同じであると仮定していますが、これはおそらく良い仮定ではありません-他の誰かが言ったように、テラバイトのドライブはまだ比較的新しいため、おそらくで始まる。

あなたの場合、それはドライブの悪いバッチのように聞こえます。


1

同じ場所からすべてのドライブを同時に購入した場合は、それらがすべて単一のiffyバッチからのものである可能性があります。

RAIDアレイをまとめるときは、ドライブを少し混合することをお勧めします。つまり、メーカーの組み合わせ、または少なくとも異なるサプライヤのドライブを組み合わせることをお勧めします(すべてのドライブが1つの不良バッチから生じるリスクを減らすため)。

私がお勧めする別の推奨事項は、可能な場合はより小さいドライブを使用することです(つまり、ドライブとコントローラーポートをそれらにぶら下げるための物理的なスペースがあります)。この方法では、ドライブが故障した場合、アレイ全体を再構築するのではなく、大きなアレイの一部である小さなアレイのみを再構築します(アレイが完了しない時間を短縮します)。また、もう少し冗長性を提供します(「2つのドライブが同時に障害を起こす」シナリオのうち6つのうち4つでは、4ドライブのRAID10アレイが稼働します)。ご使用のRAIDコントローラー/ソフトウェアでサポートされている場合は、より小さいR5アレイをR50アレイに結合することでも同じことができます。

たぶん私は過度に妄想的ですが、そのドライブが冗長アレイの一部であっても、1つのドライブに1Tbのデータを信頼するのは慎重です。

明らかに、実際には物理的な制約があり、それがテクニックをあなたにとって非実用的にする可能性があります。消費電力も制約するので、YMMV。1つまたは複数のアレイ実用的でない場合の「インスタンス」として:R1アレイの大きなドライブの代わりに、ここのサーバーの1つにR10として4つのドライブを配置しますが、物理的にスペースはありません、外部アレイの購入/構築は予算外であり、データ保護要件のためにデータを他のすべてのデータから物理的に分離する必要があるため、既存のアレイのスペースを使用できませんでした。


1

誰かがこのより大きなドライブの問題について非常に詳細な研究をしました。ドライブのサイズが大きくなった場合でも、ビットエラーレートが一定のままであることに加えて、大きなドライブの再構築にかかる時間が長くなります。2つが組み合わさって、再構築中に2番目の障害を現実の領域に非常に入れます。RAIDアレイでは500 GB以下のドライブを使用します。


1

実稼働で使用する場合は、常に小容量のハードドライブを使用してください。その背後にある物理学をチェックしたことはありませんが、小さなディスクは故障する頻度が低くなります。それは誰もがいつも私に言ったことです。


0

すべてが同じバッチのディスクで、すべてが同じサプライヤから出荷されたアレイを作成しましたか?それは悪いことだと言われました...


0

RAID-6を検討してください。RAID-5の再構築中にハードリードエラーが発生する可能性は非常に現実的です。または、ZFSを使用したRAID-Z。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.