サーバーでコンシューマーMLC SSDを使用しても安全ですか?


44

私たち(と私はジェフを意味します)は、バックアップデータセンターでConsumer MLC SSDディスクを使用する可能性を検討しています。

コストを抑え、使用可能なスペースを増やしたいと考えています。そのため、Intel X25-Eはそれぞれ約700ドルで、容量は64GBです。

私たちが考えていることは、低価格でより多くの容量を提供するローエンドのSSDを購入することです。私の上司は、バックアップデータセンターを使い果たすサーバーのディスクに約5kを費やすことは投資に見合うとは考えていません。

これらのドライブは、Lenovo RD120の6ドライブRAIDアレイで使用されます。RAIDコントローラーはAdaptec 8k(Lenovoのブランド変更)です。

これはどれほど危険なアプローチであり、これらの危険を軽減するために何ができるでしょうか?


4
スピナーの代わりにSSDを使用する理由は何ですか?SSDのパフォーマンスに関する一般的な知恵は「支払うか気にしない」ですが、確かに他の利点があるかもしれません。
ピーターチェン

ここで解決しようとしている問題に興味があります。それが単なるコストの1つである場合、SSDが従来のドライブの代わりに考慮されるのはなぜですか?
ジョンガーデニアーズ

@peterchenでは、2、3のSSDまたは50個の15Kスピンドルを使用できます。
ミルチャチレア

@iconiK-「サーバーの場合、とにかく多くのお金を費やす必要がある」という意味ですか?もしそうなら-はい、それは私も疑問に思っていた理由です。
ピーターチェン

回答:


61

いくつかの考え;

  • SSDには「オーバーコミット」メモリがあります。これは、書き込みによって「破損」したセルの代わりに使用されるメモリです。ローエンドSSDのオーバーコミットスペースはわずか7%です。約28%のミッドレンジ。エンタープライズディスクは最大400%です。この要因を考慮してください。
  • あなたは一日にどれくらい彼らに手紙を書きますか?Sandforceの1200チップをベースにしたような中程度のSSDでさえ、1日あたり約35 GBを超える書き込みをほとんど認識せずに、オーバーコミットメモリを大幅に削減します。
  • 通常、新しいSSDの1日目は、OSであれデータであれ、書き込みでいっぱいです。1日目に35 GBを超える書き込みがある場合は、バッチでコピーして、バッチ間でSSDに「整理時間」を与えることを検討してください。
  • TRIMがサポートされていない場合、その期間中に大量の書き込みがある場合、ランダム書き込みパフォーマンスは数週間以内に最大75%低下する可能性があります-可能であれば、TRIMをサポートするOSを使用します
  • 最新のSSDが実行する内部ガベージコレクションプロセスは、静かな期間中に非常に具体的に行われ、アクティビティで停止します。これは、通常の8時間のデューティサイクルの60%でディスクが静かになる可能性があるデスクトップPCの問題ではありませんが、24時間サービスを実行します...このプロセスはいつ実行されるのですか?
  • 通常は仕様に深く埋もれていますが、安価な「通常の」ディスクのように、安価なSSDのデューティサイクルは約30%しかないと予想されています。ほぼ100%使用します-これはMTBFレートに影響します。
  • SSDには通常のディスクと同じ機械的な問題はありませんが、シングルおよびマルチビットエラーがあります。そのため、本能はそうではありませんが、RAID化を強く検討してください。明らかに、購入したばかりの素敵なランダム書き込み速度すべてに影響しますが、とにかくそれを考慮してください。
  • SASではなくSATAであるため、サーバー環境でのキュー管理はあまり良くありませんが、パフォーマンスが大幅に向上します。

幸運-書き込みで「フライ」しないでください:)


2
余分なスペースは400%ですか、それとも40%ですか?私はあなたの答えを編集しようとしていましたが、引用を見つけることができなかったので、400%になると思います。(ちなみに、それは非常に良い点です)
ChrisInEdmonton

9
また、RAID構成でTRIMがサポートされているかどうかも必ずしも明確ではありません。SSDはRAIDによってOSから抽象化されていることを忘れないでください。RAIDベンダーに確認してください。
マットシャーマン

5
私は、クリス、特にFC SANで使用されているクリスを意味しましたが、非常に高価です。
チョッパー

5
ドライブの予備スペースを増やすための1つの秘Oneは、安全な消去を実行し、未使用の大部分でパーティションを分割することです。この空き領域は、SSDのパフォーマンスと寿命に追加されます。
ザンリンクス

1
@ZanLynxで+1したいだけです。通常、SSD + Raidを使用している場合、ドライブの約80%のみをパーティション分割します。
トラッカー

12

私はこのリンクを見つけましたが、これはサーバーのMLC対SLC SSDの興味深い完全な分析を持っています

私の見解では、少なくともEasycoのMFTのようなテクノロジーの(主張されている)摩耗軽減効果を使用せずにエンタープライズアプリケーションにMLCフラッシュSSDアレイを使用することは、パラシュートなしで飛行機から飛び降りるようなものです。

一部のMLC SSDベンダーは、ドライブが書き込みに耐えるのに十分な「エンタープライズ」である主張していることに注意してください。

SandForceは、サーバーで使用されるソリッドステートドライブ用のマルチレベルセルフラッシュチップをサポートするコントローラーを備えた最初の企業を目指しています。SF-1500は、MLCチップを使用することで、サーバーメーカーが望む低コストで高密度のドライブへの道を開きます。これまで、サーバーのフラッシュドライブはシングルレベルセルフラッシュチップを使用していました。これは、MLCチップの耐久性と信頼性が一般的にサーバーの要件に達していないためです。

AnandTechでこれらの主張のさらなる分析があります。

さらに、Intelは、SLCがサーバーの90%の時間を過剰に使用している可能性があるという記録を残しています

「SLC [シングルレベルセル]が必要であると考えていましたが、MicrosoftやSeagateでの調査でわかったのは、これらの計算負荷の高いアプリケーションは、実際には思ったほど多く書かないことです」とWinslow氏は言います。「データセンターアプリケーションの90%がこのMLC [マルチレベルセル]ドライブを利用できます。」

..過去1年ほどで、ベンダーは、ドライブコントローラーで特別なソフトウェアを使用することで、企業が受け入れている点まで、コンシューマクラスのMLC SSDの信頼性と復元力を高めることができることに気付きました。高性能データセンターサーバーとストレージアレイ。SSDベンダーは、eMLC(エンタープライズMLC)NANDフラッシュという用語を使用して、これらのSSDを説明し始めています。

「ボリュームの観点から見ると、SLCを必要とする可能性のある、非常に書き込み集約的で高性能なコンピューティング環境がありますが、それはエンタープライズデータセンターの要件の上位10%にすぎません」とWinslow氏は言います。

インテルは、日立グローバルストレージテクノロジーズとの合弁事業を通じて、エンタープライズデータセンター市場の上位10%に電力を供給しています。日立は、6Gbit /秒のシリアル接続SCSI SSDのSSD400Sラインを生産しています。スループット-MLCベースのSATA SSDの2倍。

Intelは、サーバー指向のSSDドライブであっても、新しいIntel SSD 710シリーズで非常に高い「オーバープロビジョニング」スペースを備えたSLCからMLCに移行しました。これらのドライブは、内部的に冗長性のためにストレージ全体の最大20%を割り当てます。

SSD 710のパフォーマンスは最優先事項ではありません。代わりに、Intelは安価なeMLC HET NANDを使用して、SLCレベルの耐久性を手頃な価格で提供することを目指しています。SSD 710は、ユーザーが構成可能なオーバープロビジョニング(20%)もサポートしており、ドライブの耐久性が大幅に向上します。SSD 710の保証期間は3年、または摩耗インジケーターが特定のレベルに達するまでのいずれか早いほうです。この方法でSSDの保証が制限されているのはこれが初めてです。


7

この種のことは、推測ではなく、事実に基づいて常に行われます。この場合、事実の収集は簡単です。実稼働システムの長期的な読み取り/書き込みIOPSプロファイルを記録し、災害復旧シナリオで何に対応できるかを考えます。99パーセンタイルのようなものを測定値として使用する必要があります。IOPSの容量を測定するときに平均を使用しないでください-ピークはすべて重要です!次に、DRサイトに必要な容量とIOPSを購入する必要があります。SSDはそれを行う最良の方法かもしれませんし、そうでないかもしれません。

そのため、たとえば、実稼働アプリケーションが99パーセンタイルで7500 IOPSを必要とする場合、災害時に5000 IOPSで稼働できると判断する場合があります。ただし、DRサイトには少なくとも25個の15Kディスクが必要です。したがって、容量のニーズが小さい場合(SSDのように聞こえる場合)は、SSDの方が適している場合があります。しかし、実稼働環境で400 IOPSを実行していることを測定するだけであれば、6個のSATAドライブを購入し、コインを節約し、DRサイトでより多くのバックアップスナップショットを保存するために余分なスペースを使用してください。また、データコレクション内の読み取りと書き込みを分離して、仕様に基づいて、非エンタープライズSSDがワークロードに対してどれだけの期間続くかを把握することもできます。

また、DRシステムは実稼働よりもメモリが少ない可能性があることを覚えておいてください。つまり、より多くのIOPSが必要です(より多くのスワッピングとより少ないファイルシステムキャッシュ)。


5

MLS SSDが1年間しか使用されていなかったとしても、1年後には交換がずっと安くなります。そこで、MLS SSDを外出するときに交換する必要に対処できますか?


特にRAIDアレイ内にあるため、良い点です。それらの「多すぎる」が一度に失敗しない限り、これは実際にもっともらしいです。
ジェフアトウッド

@Jeff、デスクトップPCと一部を交換できる場合、すべての使用パターンを取得できないため、同時に失敗することが少なくなります。
イアンリングローズ

@ジェフ、私は大幅に拡張すると思います、失敗==「非常に遅い権利を開始します」ではなく「データを読み取らない」
イアンリングローズ

自動修正が好きではないですか?:-)
Jeroen Wiert Pluimers

3

書き込み量の問題を脇に置いた場合(または、消費者レベルのSSDがそれを処理できることを証明した場合)、SSDはエンタープライズレベルの環境に追加するのに適していると思います。RAIDアレイでSSDを使用している可能性があります。RAID5またはRAID6。そして、これらの問題は、単一のドライブ障害の後、アレイが障害に対してますます脆弱になることです。そして、それを再構築する時間は、アレイのボリュームに大きく依存します。数TBのアレイは、常にアクセスされながら再構築するのに数日かかる場合があります。SSDの場合、RAIDアレイは、a)必然的に小さくなります。b)再構築時間が大幅に減少します。


3

SuperTalentのSLCとMLCの違いに関するホワイトペーパーでは、MLCの耐久性とSLC SSDの耐久性の10分の1が示されていますが、MLS SSDの耐久性は、いずれにせよハードウェアよりも長持ちする可能性があります。これらの統計/事実がSuperTalentからどれだけ信頼できるかはわかりません。

MLC SSDのサプライヤから同様のレベルのサポートが提供されていると仮定すると、価格が低いため一見の価値があります。


1
典型的なデスクトップ使用の5年間の寿命が言及されています。それが正確な推定値である場合、彼らはデータセンター環境でサーバーより長生きするつもりはありません!
ジェームズライアン

@JamesRyan:ほとんどの計算には示されていませんが、寿命は空き領域の割合に大きく依存しています。
ベンフォークト

1
私が働いていた組織では、サーバーハードウェアの更新を3年ごとに常に行ってきました。私は一般的にベストプラクティスとして受け入れられている印象を受けていましたが、間違っている場合は修正してください。
chunkyb2002

3

現在のセットアップでの1日あたりの書き込み量を計算し、それをメーカーがSSDドライブの持続可能性を保証しているものと比較するだけです。Intelはこれに関して最も先行しているようです-たとえば、メインストリームSSDドライブのデータシートをご覧くださいhttp : //www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm

仕様書のセクション3.5(具体的には3.5.4)には、1日あたり20 GBの書き込みで少なくとも5年間ドライブを使用できることが保証されていると書かれています。ドライブの全容量を使用し、書き込み用の空き容量を自分でプロビジョニングしない場合に計算されていると想定しています。

また、エンタープライズ環境でのメインストリームSSDの使用に関するデータシートも興味深いものです。


残念ながら、ウェアレベリングは、独自の方法で書き込みを増幅するため(書き込みを分散するように設計されていることを忘れないでください)、使用パターンに基づいて効果が大きく異なるため、それほど単純ではありません。
ジェームズライアン

うーん、非常に良い点。また、RAIDセットアップでドライブを使用している場合にTRIMコマンドを失うと、書き込みの増幅率が増加します。それはすべて、典型的な使用パターンに関する各メーカーのアイデアにかかっていると思います。
cearny

2

数年前に、使用していたひどく貧弱に設計されたアプリのバッファーとして、32 GBのSLCドライブをいくつか展開しました。

アプリケーションは90%の小規模な書き込み(<4k)で、SSDドライブ上で14,000 w / sで一貫して(24/7)実行されていました。それらはRAID 1で構成され、すべてがバラ色で、遅延が低かった!

しかし、約1か月で最初のドライブが満員になり、文字通り3時間以内に、2番目のドライブも死にました。結局のところRAID 1はそれほど良い計画ではありません:)

他のドライブが他のドライブに書き込みを分散させない限り、ある種のRAID 6に関する他のポスターに同意します。

ここで、これは数年前のことであることに留意してください。これらは現在、はるかに信頼性が高く、同様のI / Oプロファイルがない場合があります。

アプリは再設計されましたが、停止ギャップとして役立つ場合もあれば、そうでない場合もありますが、大きなRAMディスクを作成し、RAMディスクを再構築/バックアップするためのスクリプトを作成し、1時間程度のデータ損失を被りました/回復時間。

繰り返しますが、データのライフサイクルは異なる場合があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.