ハードディスクが1つだけ故障した場合、RAID 4ディスクのセットアップはクラッシュしますか?[閉まっている]


9

私はウェブ開発者です。ハードウェアの経験はあまりありません。このため、管理対象サーバーを使用しています。

今朝、セットアップのドライブの1つが故障しました。ただし、サイト全体がダウンしました。Webホストに何が起こったのか尋ねたところ、RAIDコントローラーが正しく機能しないようなハードディスクの障害が発生したと彼は答えました。アレイはRAID 4としてセットアップされました。

これまでに見たことがありますか?出来ますか?

この人たちの助けをありがとう。私のWebホストが私に正直であるかどうかを知る必要があります。


アレイ内の複数のディスクが故障した場合、RAIDは失敗します(ただし、RAIDの設定によって異なります)。
Rhys Evans

短い話ですが、あなたのプロバイダーはa ******であり、安価な面で機能します。顧客として彼のインフラストラクチャがドライブの故障に対してフォールトトレラントではないと警告されている限り、それは完全に許容できます。
Luke404-2012年

raidタイプ(つまり、raid 0、1、4、5、6など)で質問を更新してください。
Trevor Boyd Smith、

回答:


22

プロバイダーがRAIDでの使用を意図していないハードドライブを使用している可能性が高いです。通常のコンシューマSATAドライブはこのカテゴリに分類されます。

考えられる問題は、ドライブが修正不能な読み取りエラー(URE)を経験し始めたことです。これがコンシューマドライブで発生すると、ドライブはそこに座って、読み取り操作が中止されるまで(通常は30〜60秒間)再試行します。RAIDはドライブがエラー(30-60)秒を報告するのを待ちます。したがって、いくつかのセクターに対する単純な要求は、故障したドライブがそれらの読み取り再試行操作をグラインドしている間、サーバーをグラインドして停止させる可能性があります。

RAIDアレイ用のドライブには、(SATAドライブ用の)時間制限エラー回復のいずれかがあります。TLERは障害をコントローラーに迅速に報告するため、コントローラーはそのような障害にインテリジェントに(大部分はインテリジェントに、できれば)応答できます。SCSI(SASも)の動作は多少異なります。SCSIコマンドセットを使用すると、コントローラーはドライブにさまざまな回復作業の制限を指定できます(モード選択:RW ERR RECOVERY)。RAIDコントローラーはドライブがすぐに故障するように設定する必要があります。コントローラーは、ドライブがTURコマンドで正常に動作していると見なすかどうかをテストし、チェック条件がある場合はアレイからドライブを故障させます。


良い説明。
sbrattla 2013年

11

はい、これは可能です。アレイが障害を乗り越えたはずであると考えるシナリオでもです。

配列が失敗する理由に関するいくつかの可能性:

  • RAIDモードで維持できるよりも多くのドライブが故障しました。例えば:
    • RAID 0(ストライピング)はドライブ障害に耐えることができません。
    • RAID 1は、1つのドライブを除くすべての障害に耐えることができます。
    • RAID 4/5は1つのドライブ障害に耐えることができます。
    • RAID 6は2つのドライブ障害に耐えることができます。
    • RAID 10は、障害が発生したドライブに応じて、最大50%のドライブの障害に耐えることができます。
  • RAIDソフトウェアまたはコントローラファームウェアのバグ。
  • ユーザーエラー。
    • 誰かがあまりにも多くのドライブをプルしました。
    • 誰かがドライブを引き抜いてそれを交換したことがなく、その後別のドライブが故障した。
    • アレイは監視されなかったため、存続するよりも多くのドライブが故障する可能性があります。
  • 消費者グレードのドライブを備えた安価なコントローラーは、通常、他の方法で存続可能なシナリオでも失敗することが知られています。
    • 消費者レベルのドライブは、良好な読み取りが得られるまで、ほぼ無期限に不良セクターを読み取ろうとします。安価なコントローラは、そのようなドライブが結果を返すまでほぼ無期限に待機します。待機時間は非常に長いため、オペレーティングシステムが諦める可能性があります。次に、再起動時にドライブがコントローラーに十分な速度で応答せず、アレイに障害が発生したと見なされます。
    • 一方、エンタープライズレベルのドライブはすぐに諦めて、コントローラーが別のドライブからデータをプルできるようにします。また、適切なコントローラーは、応答に時間がかかりすぎるドライブを故障とマークして続行します。

1
RAID 1は、アレイ内のドライブの1つ除いてすべての機能が停止しても生き残るはずです。確かに、ほとんどの人は、おそらく2ドライブRAID 1つのセットアップ、それが唯一の単一ドライブの死を生き残ることができることを意味し、それがRAID 1に固有ではありません実行する
からCVn

興味深いことに、RAID 10の1つのディスクに障害が発生した場合、1つのディスクだけが破損すると生き残ることができないため、別のディスクを破損する必要があります。
FLY、

@MichaelKjörling良い点。投稿を編集しました。
ロングネック

@FLYあなたは正しい、私はその点につやをつけた。編集。
ロングネック、

RAID4はRAID3である必要があります。RAID3はパリティ付きバイトストライピングです。RAID4は、AFAIKが実装されたことのない大量のドライブを必要とするECC実装でした。
ダンはFirelightによっていじっている2012年

8

RAID 0実装の場合、単一のドライブに障害が発生すると、アレイとそれに含まれるすべてのデータが失われます。


これはRAID 4の実装です
スティーブ・ロドリゲ

11
ははは-あなたは私をほとんどそこに連れてきました、それは本当に何ですか?
Chopper3

3
@ Chopper3 NetAppはRAID4を使用します。だから、完全に前代未聞の話ではありませんが、それは私にも笑いを与えました。多分それは、ホストがNetAppファイラーか何かを持っていると言う方法です。
HopelessN00b 2012年

1
@SteveRodrigueあなたはあります必ずそれのRAID 4?
MDMarra

1
それが本当にRAID4であり、1つのドライブだけが故障した場合、少なくとも原則として、新しいドライブをインストールしてアレイを再構築できるはずです。おそらく、Webホストが原因で、残りのドライブの1つがこれを実行しようとしたときに障害が発生しましたか?
user3490 2012年

2

ディスクが故障したとき、またはディスクが差し迫った障害を報告し始めたときに、ファームウェアのバグがRAID全体を削除するのを見てきました。申し訳ありませんが、私はあなたを指す具体的なことは何もありませんが、そうです、それは起こる可能性があります。もちろん、RAID仕様の一部ではありませんが、これは間違いなくバグです。


1

はい、可能です。それは起こるはずではないが、確かに起こり得る。URE(回復不能な読み取りエラー)、コントローラーの障害、ファームウェアのバグなどを入力します。

追加情報(ホストから提供されない可能性が高い)がないと、どちらかと言えば明確に言うことはできませんが、多くのRAIDアレイを扱っている人は誰でも、アレイ全体が失われたりクラッシュしたりした経験があります。持ってはいけません。

(そして、ところで、RAID4はあまり一般的に使用されているRAIDレベルではありませんが、ドライブの損失に耐えられるはずです。ただし、常にそうであるとは限りません。)


1

メカニックではなく、通信インターフェースを構成している電子機器で、多くのHDD障害がありました。多くの電子部品はサイズが小さいため、小さな電気的不規則性にも非常に敏感です(これは、近くの大きなA / Cモーターがオン/オフになっている場合などに発生し、電源装置が少し安い側にあります)。

ドライブの内部電力コンバーターまたはコンデンサー(エネルギー貯蔵バッファー)が燃え尽きると、HDDの外部コネクターで生成された電気信号が仕様から外れる可能性があります。ドライブは銅線を介してコントローラーに接続され、多くのサーバーでは多くのドライブがケーブル接続を共有して取り付けを簡単にし、混乱を減らします。これにより、隣接するコンポーネントを簡単に中断したり、永久に破壊したりすることさえできます。

ちなみに、これは価格設定とはほとんど関係ありません。確かに、高価なコントローラとドライブは、異常な状態に対してより耐性のある、またはより優れたシールドを備えた部品を使用する場合があり、低コストのコンポーネントを使用すると、標準以下の部品を入手する可能性が高くなります。しかし、50ドルのドライブと500ドルのドライブに同じコンデンサを定期的に見つけました。故障したHDDが電源からSATAコネクタに12ボルトを直接ルーティングする場合、何かがショートしたために、価格がいくつあってもRAIDコントローラーは揚げられます。

それは通常起こることではありませんが、私の経験では前代未聞ではありません。


「多くの場合、サーバーでは多くのドライブがケーブル接続を共有しています」最近のSASまたはSATA環境ではそうではありません。ここであなたのシナリオが起こったことは、天文学的にかなりありそうにありません。ドライブの電子機器が故障して他のコンポーネントが取り外されるのを聞いたことがないと思います。12vは確かにSATAまたはSASコントローラーをフライしますが、ロジックコンポーネントが12vに接続されることはめったにありません。12から3.3以下に電圧を下げるのは5vまたは3.3vソースに比べて非常に複雑だからです。この種の出来事がどこで起こっているのか知りたいです。共有したい場合は?
クリスS

1

はい、1つのドライブに障害が発生すると、レイド全体が失敗する可能性があります。最初に障害が発生したドライブはコントローラーによってオフラインにされ、レイドは引き続き正常に動作します。ただし、故障したドライブが交換されると、コントローラーはRAIDの再構築を開始します。他の残りのドライブの1つに潜在的な未検出の読み取り問題がある場合、故障したドライブを再構築すると、さらに多くのドライブがオフラインになる可能性があります(RAIDの再構築中に読み取り問題が検出された場合)。不合格。


これが、読み取りまたは書き込みの問題を発見するために、RAIDアレイを定期的にスクラブする必要がある理由です。
Chris S
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.