はい、それは主にドライブのサイズが大きくなるにつれて問題になります。ほとんどのSATAドライブのURE(修正不可能な読み取りエラー)レートは10 ^ 14です。または、統計的に12TBのデータを読み取るたびに、ドライブベンダーは、ドライブが読み取り失敗を返すと言います(通常、ドライブの仕様書で確認できます)。ドライブは、ドライブの他のすべての部分で引き続き正常に機能します。一般に、エンタープライズFCおよびSCSIドライブのUREレートは10 ^ 15(120TB)であり、SATAドライブの数は少なくなります。
まったく同時にディスクの回転が停止するのを見たことはありませんが、raid5ボリュームがこの問題に遭遇しました(5年前に5400RPMコンシューマPATAドライブで)。ドライブが故障し、死んでいるとマークされ、スペアドライブの再構築が行われます。問題は、再構築中に2番目のドライブがその1つの小さなデータブロックを読み取れないことです。誰がレイドを行っているかによって、ボリューム全体が死んでいるか、その小さなブロックだけが死んでいるかもしれません。1つのブロックだけが死んでいると仮定すると、読み込もうとするとエラーが発生しますが、書き込むとドライブは別の場所に再マップします。
保護する方法は複数あります。二重ディスク障害から保護するraid6(または同等のもの)が最適です。追加の方法はZFSなどのURE対応ファイルシステムであり、より小さいRAIDグループを使用するため、統計的にUREドライブにヒットする可能性が低くなります制限(ミラーの大きなドライブまたはRAID5の小さなドライブ)、ディスクスクラブとSMARTも役立ちますが、それ自体は保護ではありませんが、上記の方法の1つに加えて使用されます。
私はアレイで3000近くのスピンドルを管理しており、アレイは潜在的なUREを探してドライブを常にスクラブしています。そして、raid6の代わりにraid5を使用していて、ドライブの1つが完全に死んだ場合、それらのかなり一定したストリームを受け取ります(ドライブ障害の前にそれを修正して警告する)。特定の場所にヒットすると問題が発生します。