SANに「必須」の空きスペースはありますか?


8

私はSANの専門家ではありません。サプライヤが解決できないと思われる継続的で苛立たしい問題についての手がかりを得るために、ここに書いています。

ビデオ監視システム用に提供されている16 x 2 Tbディスクを備えたENHANCE ES3160P4 SANを所有しています。SANは、サプライヤによってRAID 5アレイ内で14のディスクを使用するように構成されており、2つのディスクはグローバルスペアです。RAIDは通常、RAIDスペース全体にまたがる同じサイズの2つの仮想ディスクに分割されます。それぞれが12 Tbを超えるものになります。各仮想ディスクは単一のLUNに対応します。これは、ビデオデータを継続的に格納し、ユーザーが必要に応じて記録を取得できる単一のビデオサーバーに接続されています。LUNはNTFSでフォーマットされ、iSCSIを介してWindows Server 2012ビデオサーバーに接続されます。ビデオサーバーは、使用可能なスペースを完全に使用する傾向があります。

この構成では、SANのディスクに障害が発生し、障害が発生しています。その間、別のディスクに障害が発生したため、SANはRAIDを回復できません。ここ数か月でRAIDを4回も失いました。

同じ問題が発生しているように見える、同様に構成された同じタイプの他の3台のマシンを所有しているため、この問題は不正なSANサンプルが原因ではないようです。問題は1つだけですが、現在は十分に活用されていません。

数か月にわたる未知のテストとチェックの後、サプライヤーは結局、SANを100%使用するべきではない、または物理的にも急速に劣化することはよく知られていると述べ、問題を解決するには仮想ディスクを作成する必要があると述べましたRAIDで利用可能な総スペースの10-15%を残します。

私は問題をウェブで検索しましたが、これを言っている特定のステートメントは見つかりませんでした。RAID全体にまたがる仮想ディスクを作成してから、LUNを十分に活用すること(つまり、Windowsに空き領域を確保し、断片化を回避すること)の方が合理的であるように思えます。そうでない場合、「よく知られている」ために空き領域を残さなければならない場合に、ENHANCE SANがRAID全体にまたがる仮想ディスクを作成できる理由、およびサプライヤが最初にこのようにシステムを構成した理由がわかりません...しかし、それは別のポイントです。

結局、私たちはこの状況を解決したいと思っています。どんな提案も受け入れられます。すでに述べたように、私はSANの専門家ではありませんが、多くの問題が発生した後、サプライヤが何が起こっているかを知っているかどうかを本当に理解したいと思います。

よろしくお願いします!よろしく

編集:ディスクタイプ 回答から関連情報のようですが、ディスクはすべてWestern DigitalモデルWD2001FYYG-01SL3であると付け加えます。


3
適切に設計されたシステムは、適切に機能するために予約スペースが必要な場合、クライアントが使用できるように提供せずにスペースを予約します。スナップショットにはスペースが必要な場合があり、Copy-on-Writeファイルシステムには必要ですが、それらには通常、これらの目的のために小さな予備があります。少なくともデフォルトでは、ユーザーがリスクを負う意思がある場合は、もちろんこれをオーバーライドできます。
ptman 2015

少なくともディスクは見栄えがよく、24時間365日SASディスクですが、それほど頻繁に故障することはありません...
Sven

4
iossueはフリー・スペースではなく、ばかげた構成です。Raid 5の14枚のディスクは、数学ごとに安定しておらず、そのように単純です。RAID 6でも課税される場合があります。一般に、2 TBのディスクを使用したRAIDは統計的に安定していません。限目。
TomTom 2015

1
@TomTom:単純な数学だと思われる場合は、数学を示す質問に答えてください。私のナプキンの計算によると、劣化したアレイを再構築するために13 * 2TBを読み取ることが失敗する可能性が低い場合、アレイは安定しています。もちろんRAID 6の方が優れています。再構築で二重障害が発生する可能性が低い場合は、安定しています。
MSalters 2015

4
With this configuration the disks of the SAN are failing and failing, and each time the SAN cannot recover the RAID because another disk fails in the meanwhile. We lost the RAID like 4 times in the last few months.これは、TomTomが言うように、ディスクがRAID5には大きすぎるためです。そしておそらくRAID 6も、FWIW。再構築が成功する確率は100%に近くありません。あなた自身が、数か月以内に "4のような"失敗した再構築があったと言っているので、これを知っています。RAID構成はばかげており、ベンダーは無能で、そのように単純です。
HopelessN00b 2015

回答:


10

あなたが説明したことから、主な問題は、彼らがこのような大きなアレイにRAID5を使用することを決定したことです。これは、まさにあなたが経験する理由のために、このセットアップには非常に悪い選択です:リカバリ中に2番目のディスクが故障すると、すべてが壊れます。そして、この2番目の失敗は、そのリスクを負う可能性が高すぎます。

たとえばRAID6を代わりに使用した場合、リカバリ中に2番目のディスクに障害が発生してもアレイの障害にはならず、ディスク1台分の正味のストレージ容量と特定のパフォーマンスへの影響を犠牲にして、リカバリは正常に進行します。

15%の空き領域を残すことでこの問題がどのように改善されるかはわかりません。これは、ファイルシステムのパフォーマンスの観点からは良い考えかもしれませんし、そうでないかもしれませんが、RAIDの失敗とは無関係です。私はでたらめを呼び出します。

そうは言っても、私は疑問に思わずにはいられません。これが数か月の間に複数回発生することは、RAID5システムの場合でも多すぎるように見えます。使用されているディスクの種類を確認することをお勧めします。このようなシステムでの使用が認定されている24時間年中無休のドライブではなく、ベンダーが安価なデスクトップドライブを使用している可能性があります。


ご入力いただきありがとうございます。ディスクタイプを追加する質問を編集しました。
z2k 2015

2

私はこれが古い記事であることを完全に理解していますが、大規模なRAID5アレイが本番環境で引き続き見られるので、ここに私の考えを追加したいと思います。

  • 頻繁に障害が発生するディスクは、一般に過熱や振動が多すぎるケースであり、不十分に設計されたシステムや不適切な場所に見られます

  • このような大規模なRAID5アレイは強く回避する必要があります。原則として、RAID5 +ホットスペアよりもRAID6アレイの方がはるかに優れています。OPの場合、2xグローバルホットスペアを備えた1xパリティディスクを使用するよりも、RAID6構成で2xパリティディスクを使用する方がはるかに優れていました。

  • エラーとステータスを報告するための信頼性の高いシステムを用意することが重要です。無意識のうちに機能が低下し、監視されていないアレイは、災害のレシピです。


大規模なRAID5アレイが本番環境で引き続き見られます。また、アレイがRAID6で構築されている場合でも、同じアレイから共有された複数のLUN間のジオメトリ競合が不十分なため、このような大きなアレイは一般にパフォーマンスが非常に悪くなります。IMEがお勧めするのは、4 + 1 RAID5と8 + 2 RAID6です。一部のハイエンドコントローラーは、より大きなアレイのパフォーマンスの問題を隠すことができますが、最高のコントローラーは再構築に役立ちません。
Andrew Henle
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.