回答:
Googleはディスクドライブに関する研究を行った結果、ディスクの寿命と障害の間にはほとんど相関関係がないことがわかりました。SMARTテストも失敗を示しません。
私のローカルな観察(500台以上のサーバー)も同様です。新しいディスクはすぐに故障しますが、古いディスクはまだ動き続けています。
私の一般的なルールは、ディスクの問題(SMARTまたはシステムエラー)が見つかった場合、すぐに交換することです。そうでない場合は、サーバーの実行時にドライブが循環します。
いや
アクティブな運用サーバーでハードドライブを交換する際の最大の問題の1つは、交換すると再構築がトリガーされることです。特にRAID5を使用している場合、特に大きなドライブを使用している場合、再構築を強制すると、回復不能な障害が発生する非常に大きなリスクが生じます。再構築中にアレイを失うリスクは、3年前のドライブを所定の場所に残すことに伴うリスクよりもはるかに大きくなります。
極端な例を挙げると、2TBのディスクで構成される6ディスクRAID5アレイのすべてのディスクを連続して交換した場合、再構築中の回復不能な読み取りエラーの理論上のリスクは58%近くです(私のnapkinの計算によると、独自に行い、メモを比較してください)。言い換えれば、「予防」ディスクの交換は、事実上、妨害行為に他なりません。
古いサーバーのドライブを更新することを検討するのは、たとえば、1つのタスクを廃止してから新しい役割でサービスを再開するまでの間に、それを「更新」することだけです。その時点でも、容量とパフォーマンスの要件はドライブの時代よりもはるかに重要です。
まだ見ていません。サーバーは、実稼働から5年が経過するまで保証の対象となります。標準のRAID 5では、ディスク障害に耐えることができるため、2台のドライブを手元に置いておくだけですぐに再構築を開始でき、重要なサーバーでホットスペアまたはRAID 10を
使用できます。最近、サーバーでバックプレーンの問題が発生している可能性があります。近くの建築物からの新しい振動やほこりの可能性もあります。