ハードドライブの交換[終了]


19

(かなり)システムクリティカルなデータベースサーバーのハードドライブを、一定の年数使用した後、死ぬ前に交換するのは良い考えかと思いまして。

たとえば、3年使用した後にハードドライブを交換することを考えていました。サーバー全体に多くのハードドライブがあるため、交換するハードドライブをずらすことができます。

これは良いアイデアですか、それとも人々は失敗を待つだけですか?

回答:


33

Googleはディスクドライブに関する研究を行った結果、ディスクの寿命と障害の間にはほとんど相関関係がないことがわかりました。SMARTテストも失敗を示しません。

私のローカルな観察(500台以上のサーバー)も同様です。新しいディスクはすぐに故障しますが、古いディスクはまだ動き続けています。

私の一般的なルールは、ディスクの問題(SMARTまたはシステムエラー)が見つかった場合、すぐに交換することです。そうでない場合は、サーバーの実行時にドライブが循環します。

Google Study http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf


これは一般的に私が考えていたことでしたが、他の人が何をしたかを見たかったのです。おかげで
Garfonzo

2
私は同意します。新しい2.5インチSASドライブでは、10インチのサーバーで3.5インチ9GB SCSIドライブを実行するよりもはるかに高い障害率が見られます。
ジェームズオゴーマン

@ JamesO'Gorman製造プロセスの変更...エンジニアリングの「トレードオフ」の一環として、新しいドライブに何が行われたのだろうと思います。
エイブリーペイン

1
Microsoft Technetには、フォールトトレランスに関する記事もあり、ハードドライブ/機械コンポーネントの障害について簡単に触れています(technet.microsoft.com/en-us/library/bb742464.aspx)-機械的な「バスタブ曲線」について少し説明していますコンポーネントの障害が続く傾向があります。
voretaq7

@AveryPayne再新しいドライブ、2.5"ドライブがあることに注意してくださいMUCH厳しい公差を-にするために使用するもの結果『ドライブ2.5"ドライブ上の致命的な障害につながることが許容される』 3.5"が上の機械的スロップもTechNetの記事を参照してください。私はバスタブ曲線についてリンクしました-機械部品は一般に幼児の死亡率が高く、その後「老齢」で最終的に死ぬまで比較的安定しています。2.5インチドライブはまだ「幼児死亡率」の領域にあります。少なくとも1年間の運用。
voretaq7

13

いや

アクティブな運用サーバーでハードドライブを交換する際の最大の問題の1つは、交換すると再構築がトリガーされることです。特にRAID5を使用している場合、特に大きなドライブを使用している場合、再構築を強制すると、回復不能な障害が発生する非常に大きなリスクが生じます。再構築中にアレイを失うリスクは、3年前のドライブを所定の場所に残すことに伴うリスクよりもはるかに大きくなります。

極端な例を挙げると、2TBのディスクで構成される6ディスクRAID5アレイのすべてのディスクを連続して交換した場合、再構築中の回復不能な読み取りエラーの理論上のリスクは58%近くです(私のnapkinの計算によると、独自に行い、メモを比較してください)。言い換えれば、「予防」ディスクの交換は、事実上、妨害行為に他なりません

古いサーバーのドライブを更新することを検討するのは、たとえば、1つのタスクを廃止してから新しい役割でサービスを再開するまでの間に、それを「更新」することだけです。その時点でも、容量とパフォーマンスの要件はドライブの時代よりもはるかに重要です。


1
再構築をトリガーするための+1
グレックマック

リスクが58%である理由を説明してください。ディスクが定期的にパトロールされている場合、なぜそれはより多くの回復を強調しますか?
ミルチャVutcovici

@MirceaVutcoviciは、RAID-5配置では、すべてのドライブが再構築中に時々アクティブになりますが、時々どこかでランダムにシークします。言い換えると、すべてのドライブの「負荷」が大きくなり、そうすることで、2番目に故障したドライブがトリガーされるリスクも高くなります。
エイブリーペイン

@Avery Payne再構築中にディスクにさらにストレスをかけることを知っています。再構築が一貫性チェックよりもディスクに負荷をかける理由を理解しようとしています。
ミルチャVutcovici

@MirceaVutcovici正確な数値(および計算方法)は議論の余地がありますが、一番下の行は10テラバイトのデータを6回読み取る必要があります。 6つの再構築。60テラバイトのデータを読み取る可能性は、エラーがまったくないため、好ましくありません。
スカイホーク

3

まだ見ていません。サーバーは、実稼働から5年が経過するまで保証の対象となります。標準のRAID 5では、ディスク障害に耐えることができるため、2台のドライブを手元に置いておくだけですぐに再構築を開始でき、重要なサーバーでホットスペアまたはRAID 10を

使用できます。最近、サーバーでバックプレーンの問題が発生している可能性があります。近くの建築物からの新しい振動やほこりの可能性もあります。


これは完全に真実ではありません。多数のディスクが同じロットのものである場合、再構築のストレスを追加すると、同時障害のリスクがはるかに高くなります。別の回答で述べたように、RAID5のサイズを大きくすると、再構築中にUREの確率が高くなり、アレイがraid5の有効性しきい値を下回ります。
マゼラン14年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.