RAIDディスクをまとめて購入するよりも個別に購入する方が良いでしょうか?


96

これは奇妙な質問のように聞こえるかもしれませんが、同僚の何人かと活発な議論を生み出しています。8個または12個のディスクのようなもので構成される、中程度のサイズのRAIDアレイを検討してください。ディスクの最初のバッチを購入する場合、またはアレイを拡張したりハードウェアを更新するために交換品を購入したりする場合、2つの幅広いアプローチがあります。

  1. 1つのベンダーから1つの注文ですべてのドライブを購入し、すべてのディスクを含む1つの大きな箱を受け取ります。
  2. さまざまなベンダーから1枚のディスクを注文するか、1枚のディスクの注文を数日または数週間にわたって分散させます。

明らかにいくつかの妥協点がありますが、これらは主な対立する考え方です。私は、アレイの壊滅的な故障のリスクを減らすという点で、どのアプローチがより賢明であるかを本当に知りました。(「アレイの再同期化にかかる時間に等しい時間枠内でディスクの25%が故障する」と定義しましょう。)すべてのディスクが同じ場所から来た場合、すべてが同じであるロジックストライキを待っている根本的な欠陥。あなたがそうするなら、同じ最初の時計のカウントダウンで同じ時限爆弾。

私はそれぞれのアプローチについてより一般的な長所と短所をいくつか収集しましたが、それらのいくつかは、証拠に基づいた堅固なデータではなく、推測と直感のように感じます。

一度にすべて購入、プロ

  • 研究/注文フェーズに費やす時間が短縮されます。
  • ベンダーが請求する場合の送料を最小限に抑えます。
  • ディスクは、動作特性(温度、振動など)で同じファームウェアバージョンと同じ「癖」を持つことがほぼ保証されています。
  • 価格の上昇/在庫不足がプロジェクトの途中で停止することはほとんどありません。
  • 次の各ディスクは、インストールする必要がある瞬間に手元にあります。
  • シリアル番号はすべて既知であり、ディスクはシリアル番号の増加順にエンクロージャーに取り付けることができます。過度にうるさいようですが、一部の人々はそれを重視しているようです。(管理インターフェイスは、ハードウェアポートの順序ではなくシリアル番号でディスクを並べ替えると思います...?)

まとめ買い、短所

  • すべてのディスクは(おそらく)同じ工場で製造され、同じ材料で同時に製造されました。それらは同じ環境に保管され、輸送中に同じ潜在的な悪用の対象となりました。1つに存在する欠陥または損傷はすべてに存在する可能性があります。
  • ドライブを一度に1つずつ既存のアレイに交換し、新しい各ディスクを個別に再同期化する必要がある場合、注文の最後のディスクがインストールされ、障害があると検出されるまでに数週間かかる可能性があります。ベンダーとの返品/交換ウィンドウはこの期間中に期限切れになる場合があります。
  • プロジェクト中に発生する可能性がある近未来の価格低下を利用することはできません。

個別に購入、プロ

  • 1つのディスクに障害が発生した場合、他のディスクとほとんど製造/輸送履歴を共有しません。製造または輸送中の何かが原因で障害が発生した場合、根本原因は他のディスクでは発生していない可能性があります。
  • ディスクが到着時にデッドであるか、使用の最初の数時間で故障した場合、それは出荷が到着した直後に検出され、返品プロセスがよりスムーズに進む可能性があります。

個別に購入、短所

  • 納得のいく価格の十分なベンダーを見つけるのにかなりの時間がかかります。注文の追跡、配送の失敗、破損した商品の返品、その他の問題の解決には時間がかかる場合があります。
  • 潜在的に高い送料。
  • 新しいディスクが必要になるものの、手元にないものがあり、プロジェクトが停止する可能性が非常にあります。
  • 想像上の利益。ベンダーまたは購入した日付に関係なく、すべてのディスクは同じ場所から来ており、実際には同じです。製造上の欠陥は品質管理によって検出され、標準以下のディスクは販売されませんでした。出荷時の損傷は非常にひどく(肉眼ではっきりと見えるように)なければならず、そのため損傷したドライブは開梱時に明らかになります。

単に箇条書きの数で行く場合は、「一括購入」がかなり明確に勝ちます。しかし、長所のいくつかは弱く、短所のいくつかは強いです。箇条書きの多くは、単純に他のいくつかの論理的な逆を示しています。これらのことのいくつかは不条理な迷信かもしれません。しかし、迷信がアレイの整合性を維持する上でより良い仕事をするなら、私はそれに沿って進んでいくと思います。

ここで最も賢明なグループはどれですか?

更新:この議論に関連するデータがあります。私が個人的に構築した最後のアレイ(約4年前)には8つのディスクがありました。私は単一のベンダーに注文しましたが、購入を約4枚ずつ2注文に分割しました。実行の最初の数時間以内にアレイの1つのディスクが故障しました。それは最初のバッチからのものであり、その注文の返品期間はすべてをスピンアップするのにかかった時間で閉じていました。

4年後、7台の元のディスクと1台の交換ディスクは引き続きエラーなしで実行されています。(木のノック。)


6
質問のために私から+1。私はしばらくの間それを自分で知りたかったので。ビッグファイルサーバーのHDDがほぼ同時にバスタブカーブの終わりに達する現象は確かに見ましたが、そのようなサーバーの承認されたベンダーの数はかなり少ないため、「ロットを購入する」アプローチはかなり良いです。ハード。実際のデータが含まれる回答を楽しみにしています。
MadHatter

2
Re。更新:これは単一のデータポイントです。これを数千のディスクに対して繰り返して、有用なメトリックを取得します。これは、特にディスクの製品サイクルが短いため、この種のデータが不足しているため、実行が困難です。
スヴェン

1
過去のメタで、多くの逸話を生成するだけでなく、ベストプラクティスの質問が話題になっていることに同意したことを思い出すようです。この質問にいくつかの素晴らしい答えが得られることを願っています。チャンスを与えるべきだと思います。
MadHatter

3
@Svenありがとう、あなたは紳士です。ここに期待しています。そして、潜在的な回答者へ:逸話ではなくデータをお願いします。
マッドハッター

2
私は襲撃で多くのマシンを管理しています。 最終的にすべてのディスクに障害が発生するため、十分なスペアを用意しておくと、完全な障害が発生するのを待つのではなく、事前に通知する可能性があります。
クリギー

回答:


56

実際には、エンタープライズベンダー(HPE、Dellなど)から購入する人はこれを心配しません

これらのベンダーが提供するドライブは、同じ部品番号で複数のメーカーにすでに普及しています。

特定のSKUの下のHPディスクは、HGSTまたはSeagateまたはWestern Digitalの場合があります。

同じHP部品番号、メーカーのバリエーション、ロット番号、ファームウェア ここに画像の説明を入力してください

ただし、バッチの失敗の可能性を出し抜こうとしないでください。安心できる場合は試してみてください。ただし、努力する価値はないかもしれません。

クラスタリング、レプリケーション、堅牢なバックアップなどの優れたプラクティスは、バッチ障害に対する真の保護です。ホットスペアとコールドスペアを追加します。システムを綿密に監視します。ZFSのようなスマートファイルシステムを活用してください:)

そして、ハードドライブの故障は必ずしも機械的なものではないことを忘れないでください...


13
ただし、保管/出荷の側面はまだ有効です。HPまたはFedExの保管室にいる誰かがディスクでいっぱいの箱を落とすと、受け取ったバッチ全体に影響する可能性があります。
-smitelli

6
@smitelliわかりました。バックアップ、RAID、レプリケーション、DR、スペア。すべてのドライブが一度に故障する可能性は十分に小さいので、これはほとんどの人が遭遇する準備をすべき問題ではありません。
ewwhite

3
知っておくべきこととして、私はAmazonから1回の注文でSW RAIDボックス用に5つの消費者グレードのアーカイブドライブを購入しました。最初のものは48か月後に失敗しました。2番目、53か月。3番目と4番目は55か月で2週間以内に失敗し、最後の1つは57か月で失敗しました。幸いなことに、私は3ウェイの冗長性を使用していましたが、それでも...予想していなかったものです。シリアルがシーケンシャルかどうかはわかりませんが、ドライブ自体は本質的に同一でした。
MooseBoys

3
@ewwhiteはい。ただし、同じSKUを一度に10個注文した場合、1か月に1個注文した場合よりも、複数のサプライヤーからのものである可能性は低くなります。それが私が作っているポイントです。
カイタル

2
この答えは少し意見が多いようで、なぜそれが真実であるのかについての議論を与えていないようです...デルから注文したすべての人と話をしましたか?バッチ障害のアウトスマート化に関する「スマート」とは何ですか?人々があなたが想定していることをするのは実際に良いことですか?
-AnoE

43

ewwhiteからの回答とは異なり、一部のシステム管理者はバッチで注文します。私は個人的にドライブを注文することは決してありませんでしたが、そのような容量で働いていた最後の場所での標準操作は、ドライブをバッチで注文することでした。12ドライブのマシンの場合、SOPはドライブを3つのバッチに分割し、マシンに3層の冗長性プロファイルを与えるよう指示しました。

しかし、私が相談した他の小さな服装は、バッチに関係しないものや、バッチを2つまたは4つのアレイに分割するものなど、さまざまなプロトコルに従っています。簡単な答えは、達成する必要があるサービスのレベルにふさわしいと感じることです。

サイドノート:私が働いた最後の場所は確かに正しいことをしていた。アプリストレージマシンは、ドライブのバッチ全体で障害が発生することを決定し、この特定のバッチすべてに同じ障害があることを発見しました。バッチプロトコルに従わなかった場合、壊滅的なデータの損失を被っていたでしょう。


7
そのサイドノートを前もって作成することを検討します!
奇数思考

38

死にかけているRAIDアレイと難しいドライブの処理に多くの時間を費やしている人からの正直な答え:回避できる場合は、同じバッチからすべてのドライブを持ってはいけません。

私の経験は回転するディスクにのみ適用されます。SSDには、大量注文の際に考慮すべき独自の問題と利点があります。

正確に物事を処理する最善の方法は、主に使用しているアレイの大きさに依存します。2ドライブ冗長性を備えた6ドライブアレイのようなものを使用している場合、おそらく3メーカーから同様のドライブを安全に購入してアレイを分割できますそのような。

奇数のドライブを使用している場合や、簡単にパーティション分割できないアレイを使用している場合は、別のベンダーから同じドライブを購入するなど、他のアプローチを試すことができます。一緒に製造される可能性に基づいてドライブを分離してください。

適切な基盤技術を備えた十分に小さいアレイを実行している場合は、異種ディスク電源から増分的に構築するのに時間をかける価値があるかもしれません。1か月か2か月後、またはシステムがいっぱいになったときに、逃げることができる最小数のドライブから始めて、次のサプライ品を購入します。また、選択した特定のモデルに存在する可能性のある問題についても把握できます。

このアドバイスの背後にある理由は、ドライブの2つの癖の組み合わせです。

  1. 似たような起源のドライブがたくさんある場合、MTBFは著しく壊れます。統計では、サンプリングバイアスと呼びます。サンプルが類似しているため、平均化の効果はあまり役に立たない傾向があります。バッチまたは設計自体に障害があり、予想よりも頻繁に発生する場合、そのバッチからのドライブはMTBFが示唆するよりも早く故障します。

    ドライブが分散している場合、[50%、90%、120%、200%]のMTBFを受け取る可能性がありますが、すべてのドライブがその50%バッチから来ている場合、手に手間がかかります。

  2. RAIDアレイの再組み立てはディスクを強制終了します。いいえ、本当に。ドライブに障害が発生してアレイが再構築されると、他のドライブからデータをスキャンしている間、他のドライブに余分な負荷がかかります。ドライブに障害が発生しそうな場合、再構築によって削除される可能性があります。または、そのセクションが最近読み取られていないために気付いていない障害の場所が既に存在している可能性があります。

    同じバッチから多くのドライブを取得している場合、この種のカスケード障害が発生する可能性は、異なる場合の可能性よりもはるかに高くなります。定期的なパトロールスキャン、スクラブ、再同期などを使用して、使用しているアレイのタイプに推奨される方法を実行することでこれを緩和できますが、パフォーマンスへの影響があり、完了するまでに数時間かかる可能性があります。

ドライブの寿命のばらつきに関するいくつかのコンテキストについて、Backblazeは定期的なドライブ障害の統計レポートを作成します...私は会社とは一切関係ありませんが、ドライブの信頼性に関する話を知っている必要があります。例はhttps://www.backblaze.com/blog/hard-drive-failure-rates-q1-2017/です...サンプルセットはおそらくより小さくなりますので、範囲外のデータはあなた自身の経験を台無しにする可能性があります、それはまだです良いリファレンス。


2
これは加速された答えであるべきです。同様の(同じファームウェア/バッチからの、またはある時点で一緒に購入されて誤って処理された)ディスクを使用したRAIDは、壊滅的な障害のリスクがはるかに高くなります
Olivier Dulac

@OlivierDulacそして、ディスクに壊滅的な設計障害が発生した場合、あなたの人生は本当に苦痛になります。300GB / 600GB / 900GB 2.5 "WD Raptorシリーズドライブは、信じられるために経験しなければならない故障率がありました
。– Kaithar

Backblazeの参照...すばらしい。
O.ジョーンズ

9

私は数年前に顧客のためにこの問題を考慮しなければなりませんでした。推奨事項をマルチソースにバックアップするための実践的な経験と研究の組み合わせがあります。

現時点での長所と短所、およびewwhiteの優れた答えは別として、慎重に考えると、ドライブを自分で購入する場合はマルチソースにすることをお勧めします。RAIDの弱点に関するウィキペディアの議論を簡単に見ると、2つの興味深い参照が示されています。

最初のリファレンスは、ACM論文RAID:High-Performance、Reliable Secondary Storage(Chen、Lee、Gibson、Katz and Patterson。ACM Computing Surveys。26:145-185)です。セクション3.4.4で、著者はハードウェア障害が必ずしも統計的に独立したイベントであるとは限らないことを指摘し、その理由を説明します。この回答を書いている時点で、論文はオンラインで入手できます。pp 19-22で信頼性について議論していますhttp://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.41.3889)。

2番目の参照は、実世界のディスク障害です。1,000,000時間のMTTFはどういう意味ですか?(Schroeder、Gibson。第5回ファイルおよびストレージ技術に関するUSENIX会議。)著者は、独立したイベントで予測されるよりも高いレートでドライブ障害が時間内にクラスター化されるという主張を裏付ける統計データを提示します。この回答を書いている時点で、このペーパーはオンラインでも入手できます(https://www.usenix.org/legacy/events/fast07/tech/schroeder/schroeder_html/index.html)。

デルは、大規模なディスク環境ではディスク障害が相関するため、2012年にRAID 5に対して明示的に推奨しました。RAID 6は2019年頃に同様の理由で信頼性が低下すると予測されています(「why-raid-6-stops-working-in-2019」というタイトルのZDNet記事:http : //www.zdnet.com/article/why-raid-6 -2019年の稼働停止/)。これらの両方の重要な要素はディスクサイズと再構築時間ですが、RAID 5の問題の緩和としては、より小さなドライブサイズとマルチソーシングが推奨されていました。

はい、可能であれば、ドライブをマルチソース化します。ewwhiteの回答で説明されているように、エンタープライズベンダーから購入している場合、これは透過的に発生する可能性があります。しかし...私の顧客はエンタープライズベンダーから16個の2TBドライブを購入しました。彼らはたまたま同じメーカーのものであり、同時に製造されているように見えました。RAID01アレイを構成してから2週間以内に2台のドライブが故障しました。入手したらドライブを確認してください。(とにかくそれらをすでにチェックしていますか?)


ストレージ容量の増加のためにRAID6が廃止されるという彼らの主張は本当に理解できません。RAIDアレイは、適切に機能するために適切なメンテナンスに依存しています。RAID6を実行する非常に大きなアレイがあり、再構築中にUREに遭遇したことはありません。すべてのMFGが推奨するように、スケジュールされたボリュームチェックを行うだけで問題ありません。
ブライアンD.

4

ドライブを個別に注文する場合の別の潜在的な欠点は、パッケージングと取り扱いです。

ハードドライブは、小売パッケージではほとんど供給されません。一度に1つずつ購入すると、ほぼ確実に売り手によって再梱包されます。この再パッケージ化は非常に多様であることがわかりました。時々、たくさんのパディングが付いた素敵な箱が手に入りますが、パディングがほとんどない場合もあります。

小さい箱は、明らかな外的損傷なしに、運送業者に投げられても脆弱です。


2

特定の購入バッチのすべてのドライブがほぼ同時に故障する可能性がある、または故障する「不良バッチ」シナリオを軽減しようとしている場合、アレイのサイズと使用されているRAIDレベルを考慮することも重要です。

複数の注文を行うことを検討している場合、全体的に適用可能な標準設定はありません。2〜4つの購入階層を推奨している人は、ドライブの1つの階層全体に障害が発生しても、アレイはオンラインのままですか?したがって、1/5/10/50などの冗長RAIDレベルでは、ドライブを一度に1台購入する必要があります。RAID6の場合、一度に2つ購入できます。

定期的にバックアップするドライブの購入方法に関係なく、アレイサイズとRAIDタイプに適したホット/コールドスペアを購入することをお勧めします。


2

私はいつも中古/バルクを買います。私が追跡する注文は、ほとんど常に同じデバイスモデルであり、少なくとも「不良バッチ」に関する懸念を軽減するために使用されています。ファイアーセールハードウェアがウェブの周りにたくさんあるので、ミッションクリティカルなハードウェア(およびすべてのバックアップハードウェアはまだ整備されている!)

+ PRO:競争力のあるオンライン価格設定と変化するビジネス環境からのハードウェアの絶え間ない洪水により、作業環境の引き込みのために小売店を50〜80%引き下げることはほとんど労力を必要としません。

+ PRO:価格が安いため予算を空けて、交換用ハードウェアの過剰在庫を過剰購入して維持できます。

+ PRO:販売者との関係中古/中古ハードウェアの既にかなりの割引からわずかな割引を受けるオンライン販売者が少数います。通常、Monopriceでは、大量に購入する場合やSLAを使用する場合を除き、これを取得することはありません。また、特にハードドライブでは、箱から出してすぐにテストしてください。売り手がDOAハードウェアの払い戻しや交換を行っても問題が発生したことはありません(キャッチに失敗した詐欺でない限り)。

-CON:保証、正当性の問題保証はデバイスの製造日に基づいています。また、再ブランド、クローンなどを販売しようとしているオンラインの詐欺師を監視する必要があります。

-CON:テストテストのオーバーヘッドを考慮する必要があります。とにかく、新しいハードウェアもテストする必要があるため、これが当てはまるかどうかはわかりません。

-CON:寿命を判断するのが難しい。ディスク障害の影響を受けやすい。

注:クライアントビルドであり、リニューアル/使用を明示的に要求しない場合、常にshiny / newによって!


まったく。安価で、リース済みで再製造されたHPディスクを大量に購入します。また、HPサーバーの保証は、シャーシ内にあるものをすべてカバーする傾向があるため、有効な部品である限りは問題ありません。
ewwhite

1

異なるバッチおよび理想的にはメーカーのハードドライブを使用することにより、より高い信頼性を得ることができます。そうしないと、時間的に近づきすぎて失敗する可能性があります。@Eliodorusの優れた答えはこれを十分に説明しています。

もちろん、誰がドライブをシャッフルするかは重要ではありません。プロバイダーが既にそれを行っていることを確認した場合、気にする必要はありません。ただし、おそらく別のプロバイダーでもフォレンジックを行い、直接言われなければ誰かがあなたのためにやると結論付けるのは合理的ではないようです。プロバイダーは通常、ドライブの信頼性を高めるために講じるさまざまな手段を宣伝することに怠慢ではありません。


1

実際、それは安価なディスクの冗長アレイ(Raid)レベルに依存します。RAID 2、3、4、5、6では、複数の異なるバッチのドライブを使用するのに役立ちますが、それは決定的なものではありません。これらのレベルを使用する際の信頼性とパフォーマンスはすでに本質的に失われます。

さて、Raid 1(ミラーリング)または1 + 0(ミラー上でストライピング)を使用するという通常の正しい選択では、各ミラー(各Raid 1アレイ)の異なる側に異なるドライブを配置することが実際に役立ちます。リカバリ中にミラーが失敗しないようにします。また、復旧時間を最小限に抑えるためにホットスペアが必要です。

詳細については、上級DBAの権威あるオークテーブルネットワークが提供する、一見しただけで有益なバトルアゲインストエイド 'F'2(Baarf)Webサイトをご覧ください。 ウィキペディアもこの問題をうまくまとめています。


これは単なる意見のようです。ソースがある場合は、引用してリンクします。
MadHatter

まあ、実際に私はソースに言及しました。そして、私はそれが意見よりもはるかに多くのロジック(ストライピングとチェックサムに対するミラーリングの性質)であると推測します。
lfd

7
リンクも引用もされていないソース。他の人があなたのソースWebサイトをグーグルで検索して、サポートデータをすべて検索することを期待しても、納得のいく答えにはなりません。それは論理の問題であるため、正確には、この特定の質問に対するハンドウェイが理にかなっいることは十分に考慮されていないことがかなり明確だったと思います。
マッドハッター


4
Webサイトにリンクされている@lfdは、その位置を説明するために「ロジック」を使用していますが、データを提供していません(一目でわかります)。「論理」の問題は、この文脈での理論の単なる別名であるということです。そして、テストされていない理論の問題は、うまくいけば明らかです。専門家によってバックアップされた未テストの理論は、一般に未テストの理論と同じ問題を抱えていることに注意してください。
user2460798

-1

私の知る限り、工場でのディスクストレージの品質チェックは非常に高く、個人的には製造上の理由によるハードウェアの故障を恐れることはありません。

そして、私が少し妄想的だった場合、同じベンダーを通じて、工場を共有していないことがわかっている2つの異なるメーカーからストレージを購入するだけです。

ストレージは非常に安価であるため、一括購入しないことは理にかなっておらず、数年後には社内でストレージを償却するため、投資はそれほど大きくありません。個々のベンダーから購入するのにかかる時間は、おそらく費やされた時間のせいでより費用がかかります。

それでも大量のディスク障害が心配な場合は、必要以上に購入してください。12個のディスクが必要なことがわかっている場合は、予備の5〜7個を購入します。これはテラバイトあたり5から7倍の48ドルであり、バルクディスクまたは中古ディスクを割引にすると(安全な理由で)システムを不安定にしたり安全にしたりせずに、さらに安くすることができます。アレイの再同期化/再初期化の話よりも、今ではもちろん、ストレージソリューションの規模を知る方法はありませんが、このタスクに数週間を費やすと、おそらくこのように聞こえるので、組織のストレージを再構成することを検討します(私にとって)何らかの形で他の何よりもミスコンフィギュレーションとして。

本当に妄想的になれば、実行中のストレージソリューションの2倍を手に入れましょう。これは、ストレージの故障に対する組織の敏感さに基づいて、これが安くなる可能性があるためです。これは、フォーチュン500企業の選択肢に過ぎません。

また、(ランダムな例)長年の財務データを最初に暗号化する「クラウド」ベンダーに保存するなど、今ここで不要なデータをオフロードすることもできます。これにより、経済的または機能的に解放されるストレージのニーズが独自のストレージから削除されます。

あなたが誰で、どこにいて、何をしているのかに基づいて、あなたのために最高の仕事をするためのさまざまな解決策があります。


1
あなたが何かを-1するなら、その理由を述べるための品位が必要です。たぶん、あなたは真実にアレルギーがあります。
クリスチャンマティアスアンベーク
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.