状況によっては、「エンタープライズ」ドライブをニア/ミッドラインに安全に交換できますか?


22

ストレージの専門家ではない多くのエンジニアのようにサーバーを指定するとき、私は通常、少なくとも1万個のSASドライブを標準化することで安全に(そしておそらくマーケティングの奴隷に)します(したがって、 「システム」データ(通常はOS、場合によってはアプリ)用の24時間365日のデューティサイクルなどのエンタープライズ」グレード、およびパフォーマンスがそれほど重要でない非システムデータのストレージ用に7.2kミッド/ニアラインドライブの使用を予約因子。3.5インチ(LFF)ディスクは大容量で低IOPの要件にのみ関連するため、これはすべて2.5インチ(SFF)ディスクを想定しています。

非システムデータが大量に存在しない状況では、通常、システムデータと同じディスク/アレイに配置します。つまり、サーバーには1万個のSASドライブしかありません(通常、「One Big RAID10」タイプ最近のセットアップの)。非システムデータのサイズが大きい場合にのみ、通常、コスト/ GBを抑えるために、7.2kミッド/ニアラインディスクの別のアレイに配置することを検討します。

これは私を不思議に思った:状況によっては、RAID10アレイ内のこれらの10kディスクは、重大な悪影響なしに7.2kディスクに置き換えられましたか?言い換えれば、最低でも10kの「エンタープライズ」グレードのディスクに固執することで、オーバースペック(およびハードウェアベンダーの満足度を維持)している場合がありますか?

たとえば、典型的な中小企業(たとえば50人のユーザー)のVMを2つ持つハイパーバイザーとして機能するサーバーを取り上げます。同社には、特別な要件のない平均的なI / Oパターンがあります。典型的な9〜5月、月〜金のオフィスで、夜間に数時間バックアップを実行します。VMはおそらくDCおよびファイル/印刷/アプリサーバーである可能性があります。サーバーには、すべてのデータ(システムデータと非システムデータ)を格納する6つのディスクを備えたRAID10アレイがあります。私の専門家以外の目には、ミッド/ニアラインディスクで問題ないように見えます。例としてHPディスクを取り上げます。

  • ワークロード:ミッドラインディスクは、40%未満のワークロードと評価されています。オフィスは1日9時間しか営業しておらず、その期間中の平均I / Oが最大に近いことはほとんどないため、ワークロードが40%を超える可能性は低いようです。バックアップのために夜間に集中的なI / Oを数時間行っても、それでも40%未満になると思います
  • 速度:ディスクはわずか7.2kですが、6つのディスクに分散することでパフォーマンスが向上します

それで、私の質問:少なくとも1万個のSASドライブを固定するのが賢明なのでしょうか、それとも多くの状況で7.2k個のミッドライン/ニアラインディスクが実際に十分すぎるのでしょうか?もしそうなら、どのように線がどこにあるかを測定し、それを安全にプレイすることで無知の奴隷になることを避けますか?

私の経験は主にHPサーバーに関するものであるため、上記は少しHPに傾いているかもしれませんが、原則はかなりベンダーに依存しないと思います。


3
SFF 7.2kミッドラインディスクは、容量と義務の制限のために意味がありません。HP機器(私の専門分野)について話している場合、SSDを使用していない場合、900GBおよび1.2TB 10k SASドライブが最適なオプションになります。米国にお住まいの場合、優れたベンダーがあれば900GB SASは約300〜400ドルです。
ewwhite

1
文法上の軽微な不満:「YをXに代入する」と言う場合、Yから始めてXに置き換えることを意味します
。– pjc50

2
2015年に住んでいますか?何年か前から私のOSドライブは小さなSSD(電力を節約するなど)であり、高性能のためにHDに触れることもなかったからです。
トムトム

1
@TomTomいいえ、私は2016年です:)真剣に、私は本当にそれを考慮していません。私の投稿で述べたように、私は最近、「1つの大きなRAID 10」アプローチを一般的に採用しているので、OSはそこに進みます。OSを別のSSDに分離することは、それが本当に必要でなければ無駄に思えます。あなたの考えを聞いてみたいです。単一のSSDまたはミラーペアを使用しますか?おそらく、これはそれ自体で良いSFの質問になるでしょう
...-dbr

1
OSのミラーペア。HPはOS /ブート固有のSSDも販売しています。
ewwhite

回答:


25

サーバー設計、ディスクテクノロジー、および経済性の興味深い交差点がここにあります。

参照:なぜラージフォームファクター(LFF)ディスクがまだかなり普及しているのですか?

  • 高密度のラックマウントおよび小型フォームファクタサーバーへの移行。たとえば、主要メーカーのタワー製品はあまり多くありませんが、より密度の高い製品ラインはより頻繁に改訂され、より多くのオプション/可用性があります。
  • 3.5 "エンタープライズ(15k)ディスク開発の停滞-600GB 15k 3.5"は、可能な限りの大きさです。
  • 2.5 "ニアライン(7.2k)のディスク容量でゆっくりと前進-2TBが最大です。
  • 大容量SSDの可用性の向上と価格設定の低下。
  • 共有ストレージへのストレージ統合。大容量を必要とする単一サーバーのワークロードは、SANを介して処理される場合があります。
  • オールフラッシュおよびハイブリッドストレージアレイの成熟と、ストレージスタートアップの流入。

上記の理由から、一般的に8〜24の2.5インチディスクドライブベイを備えた1U / 2Uサーバーに焦点を合わせているメーカーを見つけることができます。

3.5 "ディスクは、IOPの少ない大容量ユースケース(2TB +)用です。外部ストレージエンクロージャーまたは何らかのキャッシュ形式のSANストレージに最適です。エンタープライズ15k RPMの速度では、最大600GBまでしか使用できません。

2.5 "10k RPMスピニングディスクは、より高いIOPSニーズに対応し、一般に最大1.8TBの容量まで利用可能です。

2.5 "7.2k RPMスピニングディスクは、容量、パフォーマンス、寿命、価格のいずれの利点も提供しないため、悪いコールです。たとえば、900GB SAS 10kドライブのコストは、1TB 7.2k RPM SASのコストに非常に近いです。1.8TB 10k SAS2.0TB 7.2k SASの例では、価格も非常に近く、保証はそれぞれ3年と1年です。

サーバーと2.5インチ内部ストレージには、SSDまたは10kを使用します。容量が必要で、3.5インチドライブベイを内部または外部で使用できる場合は、7.2k RPMを使用します。

説明したユースケースでは、サーバーを過剰に構成することはありません。2.5インチのドライブベイがある場合、実際には10k SASまたはSSDを使用する必要があります。ミッドラインディスクはパフォーマンス、容量が低下し、保証期間大幅に短縮され、コストを大幅に節約できません。


これをまとめるのに時間を割いてくれてありがとう。明日、適切な考えを述べる機会があります。価格を簡単に見てみると、1TB 7.2kと900GB 10kの間で約30%ジャンプしているように見えますが、これは大したことではありません(私は英国にいるのであれば問題ありません)。予算が限られている場合は、おそらくいくつかの要因になる可能性がありますが、いくつかの場所で合理的な節約を行おうとしており、ディスクの選択はそのうちの1つにすぎません。純粋に技術的な観点からもあなたが質問についてどう思うか聞いてみたいです。
dbr

技術的な観点から見ると、7200 RPM 2.5 "ディスクには利点がありません。コストがあまりにも安いようであれば、買い物を続けてください。この市場にはほとんど違いはありません。今日、サーバーでHP 7200 2.5インチディスクを使用する理由は考えられません。また、HPのクイックスペックをよく読んでください。ミッドラインドライブの保証期間は短くなります。
ewwhite

1
一般的に、この答えは素晴らしいです。しかし、他のものと同様に、「それは依存します」。900GB 10k対1TB 7200ディスクの例では、1TBディスクはより低温で動作するため、おそらくより長持ちし、より安価になります。追加のパフォーマンスが必要ない場合、元の資本コストと運用の両方のお金の無駄です。1台のサーバーについては、それほど重要ではありません。10の場合、合計が開始されます。
ダンプリッツ

2
本当に遅いディスクはもっと長持ちしますか?不足している記事はありますか?
vasin1987

2
ベンダー/メーカーの観点から、はい。彼らは操縦 2.5"用の10KおよびSSDにあなたを。あなたは白ボクシングだった場合は、7200 RPMを行く。実際には、私のZFSストレージベンダーに、PogoStorage、使用7200 RPM 2.5"彼らのZFSアレイのキャッシュとSSDは排除階層化するのでより高速なディスクを指定する必要があります。
ewwhite

5

ドライブの種類によっては、少なくともいくつかの問題発生する可能あります。

  • 多数のドライブを備えたシャーシの振動負荷に対処することを意図していないドライブ(RAID / NAS対応として指定されたドライブではほとんど問題ありません)

  • TLERを許可しないファームウェア、または有効にするために時間のかかるドライブの手動再構成が必要なファームウェア(同上)

  • 使用されているRAIDコントローラーでテストされたことがないドライブ、およびそのようなセットアップで表面化する認識されないバグがある可能性があるドライブ

  • ハードシャットダウンの場合に多くの混乱を引き起こすような方法で動作する(物理的な書き込みが順不同または非常に遅延する)内部ドライブ書き込みキャッシュ(RAIDコントローラーはこれらを強制的にオフに設定する必要があります。テストされていないドライブを参照してください:)

  • ドライブは、RAIDコントローラーに障害が発生したと思わせる(TLERに関連する)ために、ドライブの動作を遅くしたり、十分な遅延で応答したりする可能性のある内部メンテナンスルーチンを時々実行する場合があります

  • 通常、SATAは通常実装されているため、コントローラーにすべてをぶら下げたり、電子部品を完全にぶら下げたり、ぶら下げたりするドライブに対するSASに比べて、保護策が少なくなります(理論上のリスクではなく、特定のディスク+コントローラーブランドの組み合わせはその故障モードを気に入っています)。


1
これらは、サーバーハードウェアとアプリケーションスタックで認定されたドライブを使用する理由のように見えますが、具体的には10k対7k2 rpmではありません。
プーリー

1
この質問は、「企業ではない7.2kディスク、または単一ドライブのエンタープライズ用に指定されたディスクをアプリケーションで使用できますか?」と簡単に理解できます(誤?)。そして、「安全に」は、通常、データ損失または障害関連のダウンタイムのリスクに対処することを意味します。
rackandboneman

4

巨大な問題:

(少し話題から外れることもありますが、私は重要ではありません!

SSDを扱っている場合(多くの場合、または場合によっては誘惑的かもしれません)- 多くのSSDには、自然発生的な停電から常に回復できないという厄介な問題があります!

これはHDDの小さな問題です。HDDは通常、ロジックに電力を供給するのに十分な容量と、書き込み中に電力が失われた場合に512バイトブロックの書き込みを終了するまでプラッターを運ぶのに十分な角運動量を持っています。一度珍しいが、これは意志ではない単一のブロックが部分的に記述することができる- 「引き裂かれた書き込み」と呼ばれるもので、その結果、仕事。部分的な書き込み(まれにしかありません)により、ブロックでチェックサムエラーが発生します。つまり、個々のブロックが不良になります。これは通常、ディスク回路自体によって不良として検出され、アップストリームRAIDコントローラによって修正されます。

SSDは別の動物です。通常、「ウェアレベリング」と呼ばれるものを実装します。HDDのように「ブロックX」の物理的な場所に「ブロックX」を書き込むだけではありません。代わりに、フラッシュメディア上の異なる場所に書き込みを試みます-そして、書き込みを集約または結合しようとします(少しのバッファリングを使用)。さまざまな場所への書き込みには、書き込みが行われる場所の「マップ」を保持することが含まれます。このマップは、ウェアレベリングを減らすことを目的とした方法でバッファリングおよび書き込まれます。ウェアレベリングの一部には、すでにデバイス上にあり、最近書き込まれていないデータの移動も含まれます。

この問題は、SSDの電源が失われたとき(メモリに大量のデータがあり(フラッシュされていない)、異なる/変更された場所に書き込まれたデータがいくつかあり、これらのマップが必要な独自のメモリにあるということです)デバイス上のすべてのデータの構造を理解するためにフラッシュされます。

MANY SSDは、それが死ぬ前に点滅し、安全面一にこのすべてのデータに生きて十分な長さの自発的パワーアウトに自分のコントローラを維持し、できるようにするロジックまたは回路を持っていません。これは、あなたが書いた1つのブロックがジェプロディになっている可能性があることを意味するだけではありません-しかし、他のブロック- デバイス上のすべてのブロックでさえ問題がある可能性があります。多くのデバイスには、デバイス上のすべてのデータが失われるだけでなく、デバイス自体がブロックされて使用不能になるという問題もあります。

これはすべて本当の理論です-しかし(ストレージ業界で働いている)-私は、これが私たちの個人的なラップトップの一部を含めて、非常に多くのデバイスで何度も何度も起こっているのを見ました!

多くのベンダーは、明確に「フラッシュ」を可能にするデバイス(「スーパーキャップ」)およびその他の回路を追加する「エンタープライズグレードSSD」の作成について検討していますが、その一部として具体的に記載されているデバイスを見つけることは非常に困難ですそのようなイベントから十分かつ明示的にテストされた保護があり、そのようなイベントから保護するデータシート。

明らかに、フラッシュテクノロジーを利用した最上位のベンダーから「ハイエンドストレージアレイ」を購入した場合、そのドライブまたはシステム全体がこれらすべてを考慮して設計されています。確認してください!

あなたの質問に関して問題がある:あなたがRAIDアレイを使用している場合は-とディスクのいくつかは、この保護なしに「悪い」のSSDです-あなたは「自発的な停電」を取得する場合-あなたが失う可能性がALLにデータをMULTIPLEディスクRAID再構築を不可能にします。

「しかし、UPSを使用しています」

また、「自発的な停電」には、BSODやカーネルのロック/クラッシュ/パニックなどの状況が含まれることがあり、システムのプラグを抜いて回復することはできないことに注意することが一般的に重要です。


2
誰かがハングしたシステムのプラグを(ディスクを破壊していない限り)すぐに抜いて、どのタイプのディスクでもキャッシュをフラッシュできないようにすることはまれです。そして、その場合、キャッシュを有効にした従来のHDDは、ブリックの可能性は低いが、データ破損の重大な可能性はあるものの、同じ混乱を生み出す可能性があります-Reiserfs、初期のNTFS、実際には発生しなかったアクティビティ(またはその逆、キャッシュのフラッシュの順序が乱れている可能性が高い)のために非常にひどく書かれています。
rackandboneman

2
適切に設計されたSSDは、データが完全にフラッシュされていない場合でも、破損したりデータを失ったりすることはありません。各論理セクタの物理的な場所は書き込みごとに変化する可能性があるため、更新がまだフラッシュされていない場合、各論理セクタのデータの以前のバージョンがまだ存在するはずです。ファームウェアに設計上の欠陥や実装のバグがある場合、データを失う可能性があります。
カスペルド

1
@kasperdコンシューマーSSDは速度ベースで販売されており、そのために妥協します。あなたが提案する方法で完全性を維持することは可能であるはずですが、事実は、ほとんどのメーカーが(少なくとも消費者レベルで)ドライブしないということです。また、それらがEoLに到達したとき、ほとんどが正常に失敗しません。
ジェームズライアン

@JamesRyan一部のパフォーマンスメトリックでより良い結果を出すために、永続ストレージへのデータのフラッシュで不正行為を行っているメーカーに関する話は新しいものではありません。ハードディスクの時代にもそれが起こっていると聞いています。これは消費者が望むものではありません。消費者は一部のメトリックのみを参照し、それを達成するためにメーカーが他の分野でいかさましているかを知らないためです。メーカーは不正行為をやめることもあれば、そうしないこともあります。(誰かが最近のニュースに触発された車の類推を思い付くことができると確信しています。)
kasperd

2
SSDは別の動物です。それらはデータがどこにあるかを伝えるマップテーブルを持っています。データを移動および再配置し、これらのマップを調整しています。書き込みの増幅を回避するために、書き込みを合体させる必要があります(つまり、延期し、まとめて後で書き込みます)。マップ自体を積極的に記述することはできず、これらの同じルールに従う必要があります。「適切な設計」と欠陥については可能ですが、SSDは、ジャーナリングされたファイルシステム(単純ではない)のように「単純」ではありません。私は多くの経験、テスト、仕様から話しているので、私はメーカーと話したかもしれませんし、そうでないかもしれません。
ブラッド
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.