RAIDがトラブルに見合うのはいつですか?


14

私たちの店では、すべてのワークステーションでRAIDを忠実に使用していますが、それはおそらくそれが行われるべき方法であると思われるからです。オンボードRAIDチップを使用した科学シミュレーション用のワークステーションについて話している。

しかし、私は多くのRAIDホラーストーリーを聞いたことがあります。Stackoverflow自体は、RAIDコントローラーによって間接的に停止しました

RAIDは、非常に狭い種類の障害(物理ディスク障害)からユーザーを保護しますが、同時に余分な障害点も発生します。RAIDコントローラーには問題がある場合があり、多くの場合に問題があります。少なくとも当店では、RAIDコントローラは少なくともディスク自体と同じくらい頻繁に故障しているようです。また、障害のあるドライブを交換するプロセスで何かを簡単に台無しにすることもできます。

RAIDがトラブルに見合うのはいつですか?バックアップソリューションに冗長性を追加することで、投資収益率が向上しませんか?この点で、どのタイプのRAIDが良いですか、悪いですか?

編集:タイトルを元の「RAIDに問題はありますか?」から変更しました。


3
ワークステーションでRAIDを使用すると言うとき、RAIDが何を意味するのか疑問に思います。デスクトップクラスのマザーボードのチップセットの一部として出荷されるRAIDは、実際にはRAIDではありません。Real RAIDは高価な(数百、数千ドル)オプションであり、通常は何らかのタイプのPCIカードとして実装されます。Proapではなく、AdaptecまたはLSIを考えてください。
ジェイソンタン

1
そのとおり、オンボードチップセットソリューションを使用しています。したがって、おそらく私の質問を少し修正する必要があります。安価なRAIDは問題に見合う価値があるのでしょうか。
アマリオン19年

回答:


17

心配しないでください、RAIDはgroupthinkのためにビジネスの世界全体で使用されません!まともなRAIDコントローラーの障害の可能性は、ディスク障害の可能性よりもはるかに低いです。実際にRAIDコントローラーが故障するのを見たことはありませんが、オフィスとデータセンターの両方で多くのディスクダイが見られました。

PS:あなたのタグが見えます。RAIDはバックアップではありません!:)


1
右、それはバックアップではありません。それでは冗長性ですか?それで、それは本当に高い稼働時間についてですか?ファイブナインが必要でない限り、本当にRAIDは必要ありませんか?
アマリリオン2009年

6
いいえ、可用性に関するものです。あなたがしたいときにマシンを降ろすことは問題ありません。1台のハードドライブでマシンを停止することはできません。RAIDを適切に使用すると、そのような事態が発生しなくなります。
マットシモンズ

9
@amarillion。うわー、それは危険な感情です。ハードドライブの経験はどれくらいありますか?RAIDは2の 9の信頼性にも非常に必要です(さらに多くのハードドライブが混在しているため)。RAIDだけでは5の9には到達できません。少なくともそのためには冗長データセンターが必要です。それでもなお、5ナインは管理ファンタジーランドBSであり、10年あたりのダウンタイムは1時間未満(約5分/年)です。IPバックボーンでもそれはありません。
ウェッジ

4
@amarillion:私の顧客の中には、毎月200ドルを請求する開発者がいるサイトがあります。または、生または死の状況に対応する労働者。YMMVは、80ドルのハードディスクでこれらのワーカーを混乱させるのは、私にはちょっと馬鹿げているようです。
duffbeer703 09年

3
いいえ。RAIDはハードドライブの障害から保護します。「rm -rf /」からは保護されません。それがバックアップの目的です!
アレックスJ

9

SUNによるZFS(OpenSolarisの一部、Apples OSX-現在読み取り専用)は、さまざまなレベルでRAIDを実行するだけでなく、ディスクに書き込まれたデータが実際に存在するかどうかを常に確認します。一貫性が重要です!RAIDは、その整合性に依存できない場合は役に立ちません。適切なRAIDコントローラー(私はHPが好きです)を選び、RAIDをスクラブして定期的にエラーを見つけます。

一方、Softwareraid(ZFSとして)は、RAIDコントローラーが死んで正確な代替品を入手できない場合、より多くのハードウェアに依存しなくなります。


8

常に。ディスクは安価ですが、情報はそうではありません。ただし、ソフトウェアRAIDを使用するので、後からハードウェアを変更したり、ハードウェアを変更したりすることができます(私を信じてください)。また、ZFSのようなチェックサムファイルシステムを使用して、サイレントデータ破損(今日の大容量ディスクでは非常に可能性が高い)から保護します。


8

コントローラーに障害が発生し、ねじ込み式の交換ができない場合は、間違った方法で行っているため、ハードウェアRAIDを使用しないと言っている人のために。

  1. 稼働時間が非常に重要な場合は、安価なハードウェアを購入しないでください。前述したように、適切なRAIDコントローラー、HP、LSI、Dellなどを使用します。

  2. コントローラがコンピュータメーカー、つまりDell RAIDコントローラを搭載したDellサーバーから購入された場合、Dellはそれらの部品の在庫期間を通知します。通常、これはそのサーバーのEOLから4年以内です。

  3. 誰かがすぐに再び走ることで配達を待つことができない場合は、誰が作ったかに関係なく、2番目の予備のコントローラーを購入する必要があります。

  4. RAID 1としてセットアップした場合、それらのドライブの1つを通常のコントローラーにドロップして、データを回復することができます。あなたにとってそれが重要な場合、あなたが重大な状況に陥る前に、コントローラでこれを確認/テストしてください。

ハードウェアRAIDが私の尻を2倍節約しました。電子メールサーバーでドライブの1つに障害が発生すると、そのマシンのRAID監視ソフトウェアから電子メールアラートを受け取り、dellを呼び出して翌日に新しいドライブを用意し、それをポップして、すべて自動的に再構築しました。そのゼロダウンタイム

2つ目は、6か月後に交換する予定の古いファイルサーバーでドライブが故障したことです。コントローラーはそれを実行し続け、その週までサーバーの交換を行いました。新しいドライブを購入する必要がなくなりました(ウォレンティがなくなったため)。また、ダウンタイムがゼロになりました。

私は以前にソフトウェアレイドを使用しましたが、ハードウェアベースのレイドほどうまく回復しません。セットアップ、ソフトウェア、またはハードウェアをテストして、それが機能することを確認し、茶色のものがファンに当たったときに何をすべきかを知る必要があります。


3
人々はRAIDを保険の一種と見なす傾向があります。彼らが「事故」を起こさなければ、RAID(保険)の利点は決して明白に見えません。多くの人々(私が思うに)がRAIDを軽視しているので、あなたのストーリーを共有してくれてありがとう。彼らが悪い経験をしたことがないなら、なぜ起こらないかもしれない何かに投資するのか?これは、読んでいるすべての人にとっての教訓であるはずです。堅実なハードウェアRAIDコントローラは、100万/ 10億のチャンスであなたの尻を救います。偶然に任せないでください。特にサーバーには、常に適切なハードウェアRAIDコントローラーを使用してください。
osij2is 09

6

ハードドライブの障害は、デスクトップワークステーションよりもサーバーで発生する可能性が高くなります...

その失敗の可能性を考慮せずに、「失敗のポイントを追加する」と言うことはできません。特に、これらの可能性の低い障害点は、特に可能性の高いハードディスクドライブのクラッシュを覆すために適切に配置されているためです。配置すると、基本的にPascalの賭けのような誤Wを作成しました。

デスクトップマザーボード上のほとんどのRAIDシステムは、ほとんどの作業がソフトウェアドライバーで行われる、cheapoソフトウェア/ハードウェアハイブリッドです。私見は、彼らがパワーユーザーに販売するために使用されるがらくたの粉です。

一方、優れた実際のハードウェアRAIDは非常に信頼性が高く、オペレーティングシステムなしで(とはいえ?)そのことを行うハードウェアを備えています。しかし、実際のハードウェアには通常バッテリバックアップがあり、チェックサムなどを計算するための完全なXOR配列があるため、これらは高価になります。SCSIを使用するとさらに高価になります。

要約:マザーボードベースのRAIDシステムを実行している場合は、いいえ、トラブルに見合う価値はありません。


3
同僚は、180,000台のワークステーションと一流のヘルプデスクを備えた大規模な学校のIT環境を運営しています。デスクトップの7%は5年のライフサイクル内でハードウェアの交換が必要であり、それらの交換の85%はハードディスクです。
duffbeer703 09年

ええ、でも、ワークステーションがダウンした場合、壊れたマシンを修正している間にユーザーに別のマシンにログインさせるだけです。多くのワークステーションでは、中央のファイルリポジトリである必要はありません。180,000台のサーバーの場合、統計はどのようになるのでしょうか。
猿の稲荷

1
あなたは多くの状況に合っていますが、誰にも当てはまりません。私の友人のシナリオでは、それらのPCの多くは教室の後ろにあり、壊れている場合、そのクラスにはコンピューターがなく、大したことはありません。私の仕事では、予備のワークステーションがあり、あまり気にしません。
duffbeer703 09年

5

バックアップとRAIDはさまざまな問題の解決策ですが、ほとんどの「RAIDの問題」は最も一般的なバックアップの問題と非常によく似ています(つまり、誰も復元をテストしません)。他のRAIDの問題は、多くの場合、人々がそれが何をして何をしないかを理解していないという直接的な結果です。たとえば、多くの人はRAIDがデータの整合性を保証すると考えていますが、そうではありません。

ワークステーションの場合、RAID-0を使用してIOにバインドされたアプリケーションのパフォーマンスを向上させたり、RAID-1 / 5/6を使用して80ドルのハードディスクに障害が発生しても100ドル/時間の科学者を維持する場合は、RAIDを適切に使用しています。ディスクの冗長性バックアップを混同しないでください。また、ITスタッフがリカバリを処理できるように手順をテストしてください。


ワークステーションに注意してください。ワークステーションのニーズは、サーバーのニーズとはまったく異なります。そして、「..バックアップとディスクの冗長性を混同しないで」という強調されたはい。
osij2is 09

4

RAIDには2つのタイプがあります

  • 安価に統合されたもの。これは本当のレイドではなく、実際の作業はソフトウェアによって行われます(特別なドライバーはレイド計算を行います)。これは避けてください。
  • もう1つは高価ですが、あなたが得るものは本当の襲撃です。これを買う余裕があれば、お金に見合う価値があります。

一部のオペレーティングシステムには、優れたソフトウェアRAIDソリューションがあります(これは、上記の安っぽいカードとは関係ありません)。LinuxソフトウェアRAIDは特に優れており、そのパフォーマンスは本当に優れています。

RAIDは信頼性を向上させることができるだけであり、バックアップソリューションではありません。ファイルは誤って削除される可能性があり、不良ディスクはRAIDアレイ内の他のディスクに不良データを返す(および複製する)可能性があるため、実際のバックアップソリューションが依然として必要です。


4

RAIDはアップタ​​イムには最適ですが、バックアップに代わるものではありません。同僚がかつて、「何かを誤って削除したときのことを知っていますか?RAIDは、同時に複数のドライブに「ああ、sh!t」になるということを知っています。」

とはいえ、その日、あなたが上司のオフィスに頭を突っ込んで彼女に言ったとき、「ところで、データベースサーバーが昨夜ハードドライブにクラッシュしました-ダウンすることはありませんでした。保証の下で不良ドライブを送り出しました」-RAIDが高価なときです。


2

ハードディスクとRAIDコントローラーの故障率はどのくらいですか?RAIDコントローラの障害は、ディスクよりもはるかに低いはずです。故障率が高い場合は、問題を引き起こしている可能性がある静電気放電などの環境を調べてください。

ワークステーションでは、正確なハードウェアコントローラーの在庫を心配する必要がないため、Alakdaeが推奨するソフトウェアraidを使用できます。ただし、ハードウェアRAIDがあり、別のメディアにバックアップされる重要な情報はすべてサーバーに保存する必要があります。

サーバーハードウェアメーカーはRAIDコントローラーを維持しているため、古いコントローラーであっても、必要に応じて通常は入手できます(ただし、かなりの費用がかかります)。


2

上記の投稿の多くは、元の質問を忘れており、RAID 1について議論しているだけのようです。質問は、「RAIDがトラブルに値するのはいつですか?」でした。まあ、それは依存します...もしあなたの開発者が彼らのワークステーションでたくさんのデータの読み書きをするなら、RAID 0構成は価値があるでしょう。このRAID 0にドライブを追加すると、もちろん速度とパフォーマンスが向上しますが、障害(ディスクまたはコントローラー)の可能性が高くなります。

私は約500台のDellマシンが配備された看護学校で働いていますが、どのRAIDも使用していません。私のタイプのユーザーには、各マシンにRAIDシステムの複雑さを追加するのに十分な利点がありません。RAID 0の速度やRAID 1の冗長性よりも、データリカバリとディスクイメージングの方が心配です。もちろん、実稼働サーバーの話ではありません。それは別の話です。データリカバリは非常に重要であり、ディスクの冗長性以上のことを考慮して、他のバックアップ方法に依存しています。ユーザーが誤ってファイルを削除した場合、あらゆる種類のRAIDは役に立ちません。

だからあなたの質問に答えるために...ユーザーがパフォーマンスを必要とするとき、ワークステーション上のRAID 0は価値があります。(すべてのimportaデータがバックアップされていることを確認してください。)既存のセットアップのデータスループットをチェックして、それが適切かどうかを確認できると確信しています。RAID 1は、上位クラスのRAIDコントローラーが利用可能なサーバー環境で使用する必要があります。展開、ディスクイメージング、および修復が複雑になるため、ワークステーションで手間をかける価値はありません。これらのワークステーションの多くには、マザーボード上にRAIDコントローラーが組み込まれていますが、マザーボードがマシンに搭載されているかどうかを知るのは良い気持ちです。


2

LinuxソフトウェアRAIDは優れており、実際にはローエンドハードウェアRAIDに勝っています。また、ワークステーションに役立つ可能性のある最適化もいくつかあります。たとえば、各ディスクの異なるものを同時に読み取ることができ、ランダムアクセス読み取り時間を効果的に2倍にします。これは、RAID 0によって最適化された転送速度制限操作とは異なり、一般的な使用例です。

信頼性に関しては、Linuxカーネルの非常によく維持された部分であり、数百万人が使用し、ハードウェア障害を非常によく処理するため、可用性に関する限り、明らかに勝ちです。私は何年も個人のワークステーションや数十台のローエンドサーバーで使用してきました。しかし、その間にかなりの数の壊れたディスクを経験しました。

(ただし、ハイエンドハードウェアRAIDカードには、バッテリバックアップ式書き込みキャッシュなど、他の機能があります。基本的に、ランダムに同期されたディスク書き込み速度を10倍にします。


私はそれが2倍を願ってランダムアクセスの読み取り/スピード/、読んでいない/時間/ :)
ビル・ワイス

1

2台の(同一の)サーバーでRAIDコントローラーが故障したのは、会社全体で1台のハードディスク障害が発生していなかったためです。

デスクトップ上のRAIDは悪い考えだと思います。これらのマシンに搭載する安価なRAIDコントローラーは、実際のハードドライブよりもずっと前に故障します。

サーバー上では、おそらくRAIDコントローラーを再び信頼するつもりはありません。予備のマシンと適切なバックアップがあることを確認してください。


1

私は開発者であり、すべてのワークステーションは内部ドライブにRAIDを使用しています。RAID0。これは間違いなく価値があります。15000のペアを試した後は、単一の7200RPMドライブからのコンパイルに戻りたくありません。
コンパイル時間を短縮しているのがRAIDか15kドライブかは、私に挑戦されてきました。私は知りません、単一の高速ドライブをコンパイルしてもまったく同じパフォーマンスが得られるかもしれません。しかし、単一のSASドライブは最新のPCにとって特に大きくはないため、安価なオンボードRAIDがまだあります。それと、RAIDがシステムのパフォーマンスを損なうことはないでしょう。
この種のRAIDは確かにワークステーションに適切であり、おそらく安価なオンボードコントローラーを使用して行うのが最適だと思います。サーバー側から見ると、ほとんどのサーバーにはOSディスク用のRAIDアレイがあり、データは適切な形式の別のアレイにあります。運用サーバーについては知りませんが、開発サーバー(かなりの量があります)でコントローラー障害が発生したことはありませんが、ドライブで障害が発生しました。1つのケースでは、SQLボックスでOSアレイの半分が失敗し、再構築中に他のディスクが失敗しました!時にはRAID1だけでは十分ではありません!


1
これでBSに電話しなければなりません。RAID 0は、開発者のワークステーションには役に立ちません。RAID 0は最高で転送速度を2倍にします。ランダムアクセスに対しては何もしません。開発者が何をしているのかを推測してください。多くの小さなファイルと、ときどき大規模なファイルを読み書きします。役立つ唯一のワークステーションは、ビデオ編集を行うグラフィックデザイナーのワークステーションで、取得できるすべてのGBが必要です。
niXar 2009年

これは本当かもしれません、私は単一の15k sasドライブのパフォーマンスをデュアルドライブRAID 0のパフォーマンスと比較していません。答えを更新しました。
pipTheGeek 2009年

1
開発者が何をするかによります。特にコンパイル中に大幅なパフォーマンスの改善に気づく大きなデータセットを扱う人がいます。GIS担当者は、RAID 0の改善にも気づきました。
duffbeer703 09年

7.2kドライブから15kドライブに移行すると、大幅に高速化されます。複数のRAID 0から得られることがたくさんはありません
ローレンPechtel

確かに、今日では、単一のSSDが安価で高速になりますか?
デントラシ

1

科学ワークステーションでは、ファイルサーバー上の共有とは対照的に、ローカルに保存されたデータでこれらのシステムがより適切に動作する場合、価値があります。しかし、一般大衆にとっては、ノーと言うでしょう。本当に必要なのは、共有に保持する必要があるデータを復元することだけである場合、面倒で頭痛の種の価値はありません。


1

RAIDは、サーバーを予期せずダウンさせることが絶対にできない場合にのみ役立ちます。データセンター内のすべてのサーバーでRAIDを使用し、他の形式の冗長性はありません。たとえば、WebサーバーでRAIDを使用していません。まだ10個あるためです。

リトマステストは、「深夜にディスクが破損し、午前9時まで待てない場合、RAIDが必要です」です。


理にかなっている他のコンテキストがあります-マシンを以前の状態にすばやく簡単に復元する方法がない場合など。
cp.engr

1

バッテリーバックアップコントローラーを使用している場合、RAIDはトラブルに見合う価値があります。

耐久性のために頻繁にfdatasync()ログファイル(データベースでは珍しくありません)を使用するサーバーアプリケーションの場合、同じブロックを何度も何度も書き込むことになります。バッテリーでバックアップされたコントローラーがない場合、これによりIOパフォーマンスが低下します。

バッテリーでバックアップされたコントローラーを使用している場合、書き込みの多くはディスクに到達することさえなく、代わりに別の書き込みに置き換えられるまでメモリにとどまります。これは良いことです。

重要なことはシステムレベルで冗長である必要があるため、冗長性はボーナスですが、必須ではありません。


1

安価なRAID実装はひどいです。

あなたの選択は、信頼性の順です:

1)ハードウェアRAIDを備えたHP DLサーバー。
2)3Ware RAIDカード。
3)ZFS
4)Linuxソフトウェアレイド

他に何か問題があり、実際に非RAIDソリューションよりも全体的な信頼性が低下する可能性があります。

コントローラーに障害が発生し、メーカーが廃業した場合の対処方法を検討してください。

電源/ケーブルの問題が原因の明らかな二重ディスク障害から回復できるかどうかを検討してください。

これらは、数百のうちの2つの例です。


1

ワークステーションの場合、データを復元できる新しいシステムを使用する場合と比較して、RAIDはおそらく価値がありません

多くの人がRAID 0について話していました...それは可用性を支援するためのものではありません。1台のドライブが故障すると、すべてが失われるため、ボリュームが故障する可能性は2倍になります。RAID 0は、ボリュームの読み取り/書き込みへのアクセス速度で遊んで、より多くのストレージを提供することです。これがビジネス環境で役立つ唯一の方法は、2つのRAID 0を取り、それらをRAID 1としてミラーリングすることです。

指摘されているように、RAIDはバックアップソリューションではありません。

RAIDも完璧ではありません。この男のブログからのこの投稿は、RAIDについて私がどう感じているか、そしてそれが価値があるときを要約していると思います:RAIDを考えていますか?

ワークステーションでは、交換がロールアウトされている間に1人が別のシステムを使用できるようにする必要があります。RAIDを使用する理由 彼または彼女のデータは、管理、データの整合性、およびバックアップが集中管理されるサーバーに保存する必要があります。ワークステーションは、財政の許す限り定期的にアップグレードまたは変更できるように構成する必要があり、RAIDはコストと頭痛の別の層にすぎません(さらに、ドライブとエアフローの追加による電力使用と発熱の問題)。企業の大部分のケースでは、おそらくRAIDカードからより大きなドライブにお金を入れる方がはるかに費用効果が高く、オンボードRAIDを使用している場合、RAIDを結びつける傾向があるため、まだ問題が発生します。マザーボードにフォーマットします(とにかく本当のRAIDではありません...それはGoogleの検索で「偽の襲撃」として発見されます。


0

なぜワークステーションに煩わされるのですか?確実にすべてのホームディレクトリとデータが一元的に保存されます。それはあなたが襲撃を使用したい場所です。


0

ドライブコントローラーの障害について心配する場合は、サーバーの障害(ファン、マザーボード、RAM、ネットワークなど)も考慮する必要があります。次に、ルーターの障害、ケーブル、および電源も考慮する必要があります。また、データセンターの障害(洪水、火災、人為的エラー)を考慮する必要があります。次に、外部ネットワークの障害(ケーブルが切れる-常に場所によっては!)を考慮する必要があります。

要するに、あなたはサイトのダウンタイムを心配することができるので、何もオンラインに置くことをまったく気にしません!または、障害のリスクと冗長性のコストを考慮して、より現実的なアプローチをとることができます。そして、私が記載されているすべてのものの、ハードドライブがあります単一障害可能性が最も高いポイント。

ヒューマンエラーの次に、つまり。shutdown -h now再起動したいときに「」と入力する人.... :(


0

私の大きな心配はディスクです。安いものは買えないようです。

主要なベンダーのメモ:

「ほとんどのRAIDコントローラーは、ディスクドライブが特定の時間内に応答しなくなると、特定のコマンドをタイムアウトするように設計されています。その結果、ドライブがオフラインで表示されたり、不良としてマークされたり、顧客に警告が表示されます。エンタープライズクラスのドライブ(またはRAID環境用に設計されたドライブ)には、セクターが不良とマークされる前に再試行制限があります。この再試行制限により、ドライブは予想される時間内にRAIDコントローラーに応答できます。デスクトップドライブはRAIDコントローラーで動作しますが、ディスクドライブが古くなるとアレイは徐々にオフラインになり、データが失われる可能性があります。

ディスクベンダーが「よく知らない」人々から多くの利益を得ることを保証する別の落とし穴、それは私にとっては狂気のようです。ただし、Googleはストレージベンダーが提供する2つの「クラス」の間にドライブの信頼性に違いがないことを示すホワイトペーパーを作成しました(これは見つかりません)。ただし、Googleがベージュボックスの艦隊でハードウェアRAIDコントローラーを使用していることは疑わしい。

おそらく、mdadm(linux raid)には、デスクトップドライブファームウェアのよりせっかちな設定に対処するために使用できる設定がありますか?

おそらく現実には、誰もがコントローラーファームウェアの「タイムアウト」期間を短縮することで保証料を支払っているのでしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.