正確にUREとは何ですか?


13

最近RAID5とRAID6を検討してきましたが、URE5の評価とドライブのサイズの増加により、RAID5の安全性が低下していることがわかりました。基本的に、私が見つけたコンテンツのほとんどは、RAID5では、ディスク障害が発生した場合、アレイの残りが12TBであれば、UREを満たし、データを失う可能性がほぼ100%あると述べています。

12TBの数値は、ディスクが1つのUREに到達するために読み取られた10 ^ 14ビットで評価されるという事実に基づいています。

まあ、私はここに到達しないものがあります。読み取りは、セクターに向かうヘッドによって行われます。読み取りが失敗する原因は、ヘッドが死ぬか、セクターが死ぬことです。また、読み取りが他の何らかの理由で機能しないこともあります(振動により頭が跳ねるなど)。だから、3つの状況すべてに対処させてください:

  • 読み取りが機能しない:それは回復不能ではありませんか?再試行できます。
  • 頭は死にます。これは確かに回復できませんが、それはまた、大皿全体(または少なくとも側面)が読めないことを意味します。
  • セクターは死にます:完全に回復不能ですが、ここではUREで4TBディスクが10 ^ 14と評価され、UREで8TBが10 ^ 14と評価されている理由がわかりません。 8TB(おそらく新しい技術)は、4TBの半分の信頼性です。これは意味がありません。

ご覧のとおり、私が特定した3つの障害ポイントから、意味のあるものはありません。それでは、正確にUREとは何ですか、具体的にはどういうことですか?

それを私に説明できる人はいますか?

編集1

最初の回答の波の後、その理由はセクターが失敗しているようです。良いことは、ファームウェア、RAIDコントローラー、およびOS +ファイルシステムに、それを早期に検出し、セクターを再割り当てする手順があることです。

さて、私はUREが何であるかを知っています(実際、名前はまったく自明です:))。

私は未だに根本的な原因とそれらが与える安定した評価に困惑しています。

故障したセクターは外部ソース(宇宙波)に起因すると考える人もいますが、それからUREレートが年齢ではなく読み取り回数に基づいていることに驚かされます。さらに、私は間違っているかもしれませんが、これはファンタジーに近いと思います。

ディスクの摩耗に関係するもう1つの理由があり、密度が高いほど磁区が弱くなるという指摘もあります。しかし、ここうまく説明されているように、新しいディスクは、ほぼ同じプラッター(および同じ密度)をHDDシャーシに入れることで、さまざまなサイズが得られます。セクターは同じであり、すべてが非常に同じ信頼性を持っている必要があります。したがって、大きいディスクは小さいディスクよりも高いレーティングを持っている必要があります。セクターの読み取りは少なくなります。しかし、それは単に、より高い技術によるゲインが高密度による損失によって相殺されるために、より新しい技術を備えた新しいディスクが古いディスクよりも良い評価を得ない理由を説明するでしょう。


「UREとデータを失う」と言えば(そして私は間違っているかもしれません)、UREとは一部のデータのみが失われ、すべてではないことを意味します。とはいえ、raid 10またはzfsは最近ではちょっとしたものです。
Sirex

1
(新しいディスクの)セクターの信頼性は(古いディスクの)半分です。これは意味がありません」私は同意しません。磁気ゾーンがますます小さくなると(同じサイズのパッケージでデータ密度が高くなるほど)、偶発的な消去(局所的なガンマ線放射、宇宙線イベントなど)の影響を受けやすくなることは非常に合理的です。このように現代のドライブの感受性が高まっているため、重要なものに非RAIDドライブを配置することはできません。また、私たちのほとんどがRAID-5をあきらめた理由の1つです。
MadHatter


ここでの本当の問題は、あまりにも多くのRAIDアレイが単一のUREをアレイ全体のエラーに変えていることです。単一のUREにより、単一のRAIDブロックが失われます。そのブロックが使用中でさえあるかどうかをファイルシステムに把握させてください、それは本当に重要ではありません。
-MSalters

1
@ミームいいえ、数字はキャンセルされます。また、2倍の数のセクターが障害の機会の2倍であるため、同じ読み取りエラー率は、バイト単位で同じ信頼性に等しくなります。それがそもそもそれが使われている理由です。
ホッブズ

回答:


12

UREは回復不能な読み取りエラーです。ドライブが修復できないセクターの読み取りが失敗した原因が発生しました。ドライブの電子回路は洗練されており、ディスクからデータを正しく読み取れた場合にのみデータを渡します。ドライブの電子機器は、不良セクタを破損と宣言する前に、何度も不良セクタを読み取ろうとします。

読み取りエラーの原因-私はここでは専門家ではありません(腕を振る)が、ドライブの老化により製造公差が適切になる可能性があります。磁区が弱くなる可能性があります。宇宙線は損傷などを引き起こす可能性があります。本質的にはランダムな障害です。

これはRAID 5にどのように影響しますか?

RAID 5は、分散パリティ付きストライピングブロック・レベルで構成されています。パリティブロックは、データブロックのビットをXORすることで計算されます。XOR関数は基本的に、すべてのビットが同じである場合、結果は0であり、そうでない場合は1です。

1010   data      or    1010 data
1100   data            1100 data
0110   parity          0011 data
                       0101 parity

XOR機能の性質は、ディスクが死んで交換された場合、その上にあるはずのデータを残りのディスクから再構築できることです。

1010  data       or    1010 data
      damaged               damaged
0101  parity           0011 data
                       0101 parity

ご覧のように、破損したデータは、残りのデータとパリティをXORすることで再構築できます。

UREはこれにどのように影響しますか?

UREは、RAID 5の再構築中にのみ重要です。

RAID 5を再構築すると、大量の読み取りが行われます。新しいディスクでデータを再構築するには、すべてのデータブロックを読み取る必要があります。UREが発生すると、関連するブロックのデータを回復できないため、データに一貫性がなくなります。十分に大きいR5の十分に大きいディスクの場合、交換されたディスクを再構築するために読み取られるビット数は、たとえば10 ^ 14読み取りの1ビットのURE値を超えます。


2
1 つの 8TBディスクでは6 * 10 ^ 13ビット以上がオンになっているため、RAID-5にこのようなディスクが3つしかない場合、UREは再構築中よりも可能性高くなります。ああ、私から+1。
MadHatter

3
12TBを読んだ後、読み取りエラーがほぼ確実であるという質問(質問といくつかの回答とコメント、他の質問にも、実際にはインターネット全体に書かれています)は間違っています。信じられない?しないでください。それを知っている。ディスクのいずれかから12(またはそれ以上)TBを読み取り、エラーが発生しなかったことを確認します。それをして、この神話を止めてください。ありがとうございました。
デビッドバラジッチ

1
@IanKempいいえ、そうではありません。私はそれを試してみました。あなたは明らかにしませんでした。(また、より良い評価は神話を少し動かすだけで、本当の変化はありません)
デビッドBalažic19年

1
@DavidBalažic明らかに、サンプルサイズが1であると、確率理論全体が無効になります。ノーベル委員会に論文を提出することをお勧めします。
イアン・ケンプ

1
@IanKempすべての数値が7で割り切れると主張し、そうでないものを見つけた場合、1回の検索で理論全体が無効になる可能性があります。ところで、まだ一人の人が実際に神話を(実験によって)確認していないのですか?信念は、より多くの知識よりも...あるときなぜ彼らは、すべき
デヴィッドBalažic

9

それでは、正確にUREとは何ですか、具体的にはどういうことですか?

ハードディスクは、あなたが求めるデータを単に保存するだけではありません。磁気ドメインのサイズはますます小さくなり、ハードディスクはデータをバイナリ形式ではなくアナログ形式で保存するため、ハードディスクファームウェアはプラッタからアナログ信号を取得し、これがバイナリ信号に変換され、この変換はメーカーの秘密のソースの一部)、読み取りには実質的に常にある程度のエラーがあり、これを補正する必要があります。

データを読み戻すことができるように、ハードディスクには、保存するように要求したデータとともに、前方誤り訂正データも保存されます

通常の操作では、FECデータはプラッターから読み戻される信号のエラーを修正するのに十分です。ファームウェアは元のデータを再構築でき、すべて正常です。これは回復可能な読み取りエラーであり、SMARTで読み取りエラーレート属性(SMART属性0x01)またはハードウェアECC回復(SMART属性0xc3)として公開されます。

何らかの理由で信号が特定のポイントを下回ると、FECデータは元のデータを再構築するのに十分ではなくなります。理論上は、その時点で、ファームウェアはデータを確実に読み戻すことができなかったことを検出できますが、それについては何もできません。このような読み取りが複数失敗した場合、ディスクは何らかの方法で読み取りを正常に実行できなかったことをコンピューターの残りの部分に通知する必要があります。これは、回復不能な読み取りエラーを通知することによって行われます。これにより、報告された訂正不能エラー(SMART属性0xbb)カウンターも増加します。

回復不能な読み取りエラー、またはUREは、何らかの理由で、ペイロードデータとFECデータが元の保存データを再構築するには不十分であったというレポートです。

UREレートは統計値であることに注意してください。正確に10 ^ 14(または10 ^ 15)-1ビットが正常に読み取れ、次のビットが失敗するハードディスクはありません。むしろ、それは平均して 10 ^ 14ビットを読んだ場合、そのプロセスのある時点で1つの読み取り不可能なセクターに出会うというメーカーの声明です。

また、上記の最後のいくつかの単語に続いて、UREレートは読み取られビットあたりセクター数で与えられることに留意してください。プラッターへのデータの格納方法により、ディスクはセクターのどの部分が不良であるかを判断できないため、セクターがFECチェックに失敗すると、セクター全体が不良と見なされます。


よし、セクターの失敗に向かっているようです。統計情報は完全に入手できます。心配ありません。また、密度が高くなるにつれてセクターの信頼性が低下することもわかりますが、それでも意味がありません。新しいディスクは通常、物理的なサイズに関係なく同じプラッタ密度を持ち、4TBは6TBよりもプラッタが少なくなります。基本的にセクターは同じであるため、8TBが統計的に高い値を達成できない理由は、セクターが2倍あるため、それぞれが半分(統計的に)読み取られることです。失敗する回数は減りますよね?
ミーム

3

セクターは死にます:完全に回復不能ですが、ここではUREで4TBディスクが10 ^ 14と評価され、UREで8TBが10 ^ 14と評価されている理由がわかりません。 8TB(おそらく新しい技術)は、4TBの半分の信頼性です。これは意味がありません。

仕様は通常「nビットの読み取り中に平均して1エラーが検出される」ため、ドライブサイズは重要ではありません。ドライブとワークロードでエラーが発生するリスクを計算することが重要ですが、製造元は、エラーを見つけるためにnビットの読み取りが必要であるとのみ述べています(平均では、保証されていません)。

例:1TBドライブを購入した場合、エラーを見つけるために約12回読み取る必要がありますが、8TBドライブでは2回目の読み取りでエラーが発生する可能性がありますが、読み取りビット数は両方とも同じであるため、品質は磁気スピンドルのほぼ同じです。

価格を上げることで支払うものは、他の要因、1TBの物理スペースに8TBを詰め込む能力、エネルギー消費の大幅な削減、ドライブの移動中のヘッドクラッシュの減少などです。


0

@MichaelKjörlingは明確に答えたと思う。

ディスクが読み取られると、ヘッドは磁区の方向を検出し、アナログの電子信号を送信します。ファームウェアが0.5Vより高い電圧を受け取ったときに1を与えるはずですが、磁場が弱すぎるため、ヘッドは0.499Vのみの信号を送信し、エラーが発生しました。このエラーを修正するにはFECが必要です。

次に例を示します。セクターデータは0x0F23である必要があり、0 * 1 + F * 2 + 2 * 3 + 3 * 4 = 0x30でエンコードします。ここでFECを取得し、セクターの後に書き込みます。読むとき、0x0E23とFEC 0x30を読みますが、一致しません。計算後、0x0F23であることがわかりました。しかし、0x0E13と0x30を取得した場合、または0x0E23と0x32を取得した場合、正しいものを計算できません。

この評価は非常に低く、おそらくhdd製造所がPBを読み取り、EBデータが安定した値を取得できない場合があります。したがって、それらは確率値を提供します。10^ 14ビットのデータを読み取ると、一度遭遇する可能性があります。これは確率値であるため、たった1セクターのデータを読み取った後、50TBデータを読み取るまで遭遇した可能性があります。そして、この値はディスク容量とは何も関係がありませんでした。あなたが読むデータのサイズに関する単なるチャンスの懸念です。データがいっぱいの4TBディスクを6回読み取る場合、このチャンスは6TBディスクを4回読み取るか、8TBディスクを3回読み取ることに相当します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.