RAID再構築中の回復不能な読み取りエラーの確率を計算する式


12

さまざまなRAIDシステムの信頼性を、コンシューマ(URE /ビット= 1e-14)またはエンタープライズ(URE /ビット= 1e-15)ドライブと比較したい。再構築が成功する確率を得る公式は(機械的な問題を無視し、後で考慮します)単純です:

error_probability = 1-(1-per_bit_error_rate)^ bit_read

覚えておくべき重要なことは、これは少なくとも1つのUREを取得する確率であり、必ずしも1つだけではないということです。

6 TBの使用可能なスペースが必要だとします。以下で取得できます:

  • 各6 TBの1 + 1ディスクを備えたRAID1。再構築中に、6TBのディスクを1つ読み戻します。リスクは、1-(1-1e-14)^(6e12 * 8)=民生用の38%またはエンタープライズドライブ用の4.7%です。

  • 各3 TBの2 + 2ディスクを備えたRAID10。再構築中に、3TBのディスクを1つだけ(バックは故障したディスクとペアになっています!)読み取り、リスクは低くなります。エンタープライズドライブ。

  • それぞれ3TBの2 + 1ディスクを備えたRAID5 / RAID Z1。再構築中に、それぞれ3TBの2つのディスクを読み戻します。リスクは、1-(1-1e-14)^(2 * 3e12 * 8)=コンシューマの場合38%、または4.7%またはエンタープライズドライブです。

  • 各2 TBの3 + 1ディスクを備えたRAID5 / RAID Z1(SynologyなどのSOHO製品のユーザーがよく使用します)。再構築中に、それぞれ2TBの3つのディスクを読み戻します。リスクは、1-(1-1e-14)^(3 * 2e12 * 8)= 38%のコンシューマーまたは4.7%またはエンタープライズドライブです。

単一のディスクトレランスのエラーの計算は簡単ですが、複数のディスク障害(RAID6 / Z2、RAIDZ3)に耐えられるシステムでの確率の計算はさらに困難です。

最初のディスクのみが再構築に使用され、2番目のディスクがケースまたはUREで最初から再度読み取られる場合、エラー確率は上記の平方根で計算されたものです(コンシューマRAID5 2 + 1では14.5%、コンシューマでは4.5% RAID1 1 + 2)。ただし、(少なくとも完全なチェックサムを持つZFSでは!)2番目のパリティ/利用可能なディスクは必要な場所でのみ読み取られると仮定します。つまり、必要なセクターはわずかです:最初のディスクでUREがいくつ発生する可能性がありますか?そうでないと、シングルディスクトレランスシステムのエラー確率が、私が計算したよりもさらに急上昇します。

私が正しければ、2番目のパリティディスクは、非常に低い値へのリスクを実質的に低下させます。

質問はともかく、製造業者はマーケティング上の理由で消費者クラスのドライブのURE確率を高めることに注意することが重要です(より多くのエンタープライズクラスのドライブを販売)、したがって消費者クラスのHDDでさえ1E-15 URE /ビット読み取りを達成することが期待されます。

一部のデータ:http : //www.high-rely.com/hr_66/blog/why-raid-5-stops-working-in-2009-not/

したがって、かっこ(エンタープライズドライブ)で指定した値は、コンシューマードライブにも現実的に適用されます。また、実際のエンタープライズドライブはさらに高い信頼性を備えています(URE / bit = 1e-16)。

機械的な故障の可能性に関して、それらはディスクの数に比例し、再構築に必要な時間に比例します。


1
こんにちは、オラフ!私の知る限り、この質問はコンピューターハードウェアにあまりにも固有のものであるため、数学に適していないようですが、メタサイトで質問したい場合は尋ねることができます。その場合は、再度フラグを立ててください。移行させていただきます。
slhck

2
3つのドライブを備えたRAID5のURE確率は38%です。URE = 10 ^ 14、HDD = 3.5 * 1024 ^ 4バイトを使用すると、ドライブごとに3.8%UREを取得し、再構築中にUREで11.1%を取得します。つまり、100 *(1-(1-(hdd / ure))^ 3)。あなたの数字は少しずれていると思います(ただし、実際の故障率はメーカーが述べたものよりも高いです)エラー率は、ビットごとにではなくドライブごとに読み取られるため、^ bit_readを使用する部分は間違っていると思います。おそらく、これらのオッズをどのように計算したかについての詳細を教えてください。興味深い質問には+1。cs.cmu.edu/~bianca/fast07.pdf
ЯрославРахматуллин

情報を追加し、計算を確認しました。
FARO

回答:



2

この質問に対処しようとするサイトや記事が多数あります。

このサイトには、RAID 0、5、10 / 50/60レベルの計算機があります。

RAIDレベルに関するウィキペディアの記事には、RAID 0およびRAID 1の故障率に関するセクションがあります。

RAID 0

特定のRAID 0セットの信頼性は、各ディスクの平均信頼性をセット内のディスク数で割った値に等しくなります。

つまり、信頼性(平均故障までの時間(MTTF)または平均故障間隔(MTBF)で測定)は、メンバーの数にほぼ反比例します。したがって、2台のディスクのセットは、単一ディスクの約半分の信頼性です。5年の確率で、ディスクが3年以内に故障する可能性がある場合、2つのディスクアレイでは、その確率は{P}(少なくとも1つの故障)= 1-{P}(どちらも故障しない)= 1に増加します。 -(1-0.05)^ 2 = 0.0975 = 9.75%。

RAID 1

簡単な例として、ディスクドライブの2つの同一モデルを備えたRAID 1を考えてみましょう。各モデルは、ディスクが3年以内に故障する確率が5%です。障害が統計的に独立している場合、3年間の寿命中に両方のディスクが故障する確率は0.25%です。したがって、アレイに何も行われない場合、3年間ですべてのデータが失われる確率は0.25%です。



また、システム内の独立したドライブ(RAIDのI)が結局それほど独立していない可能性があることを思い出させるこの記事を含むこのテーマに関するブログ記事をいくつか見つけました。

単純な理論では、ハードディスク1の故障確率が1/1000であり、ディスク2の故障確率が1/100である場合、両方が故障する確率は1 / 1,000,000です。これは、障害が統計的に独立していることを前提としていますが、そうではありません。失敗が無相関でない限り、そのような確率を単に乗算することはできません。独立性を誤って仮定することは、確率を適用する際の一般的なエラーであり、おそらく最も一般的なエラーです。

Joel Spolskyは、最新のStackOverflowポッドキャストでこの問題についてコメントしています。企業がRAIDを構築するとき、組み立てラインから出てきた4つまたは5つのディスクを一緒につかむことがあります。これらのディスクの1つにわずかな欠陥があり、10,000時間使用した後に故障する場合、すべてのディスクに問題がある可能性があります。これは単なる理論的な可能性ではありません。企業は、ほぼ同時に障害が発生するディスクのバッチを観察しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.