私が持っているHPのProLiant DL380 G7のサーバはNexentaStorストレージユニットとして実行されています。サーバーには36GBのRAM、2つのLSI 9211-8i SASコントローラー(SASエクスパンダーなし)、2つのSASシステムドライブ、12のSASデータドライブ、ホットスペアディスク、Intel X25-M L2ARCキャッシュ、およびDDRdrive PCI ZILアクセラレーターが搭載されています。このシステムは、複数のVMWareホストにNFSを提供します。また、アレイには約90〜100 GBの重複排除されたデータがあります。
パフォーマンスが突然低下する2つのインシデントがありました。VMゲストとNexenta SSH / Webコンソールにアクセスできず、機能を復元するにはアレイを完全に再起動する必要があります。どちらの場合も、失敗した、または「オフライン」になったのはIntel X-25M L2ARC SSDでした。NexentaStorはキャッシュ障害についての警告に失敗しましたが、一般的なZFS FMAアラートが(応答しない)コンソール画面に表示されました。
zpool status
出力は示しました:
pool: vol1
state: ONLINE
scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:
NAME STATE READ WRITE CKSUM
vol1 ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
c8t5000C50031B94409d0 ONLINE 0 0 0
c9t5000C50031BBFE25d0 ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
c10t5000C50031D158FDd0 ONLINE 0 0 0
c11t5000C5002C823045d0 ONLINE 0 0 0
mirror-2 ONLINE 0 0 0
c12t5000C50031D91AD1d0 ONLINE 0 0 0
c2t5000C50031D911B9d0 ONLINE 0 0 0
mirror-3 ONLINE 0 0 0
c13t5000C50031BC293Dd0 ONLINE 0 0 0
c14t5000C50031BD208Dd0 ONLINE 0 0 0
mirror-4 ONLINE 0 0 0
c15t5000C50031BBF6F5d0 ONLINE 0 0 0
c16t5000C50031D8CFADd0 ONLINE 0 0 0
mirror-5 ONLINE 0 0 0
c17t5000C50031BC0E01d0 ONLINE 0 0 0
c18t5000C5002C7CCE41d0 ONLINE 0 0 0
logs
c19t0d0 ONLINE 0 0 0
cache
c6t5001517959467B45d0 FAULTED 2 542 0 too many errors
spares
c7t5000C50031CB43D9d0 AVAIL
errors: No known data errors
これはNexenta内からアラートをトリガーしませんでした。
L2ARCの障害はシステムに影響を与えないだろうという印象を受けました。しかし、この場合、それは間違いなく犯人でした。RAID L2ARCに対する推奨事項を見たことがありません。不良SSDをサーバーから完全に削除すると動作が再開しましたが、デバイス障害の影響(およびNexentaStorからの通知の欠如も同様)が心配です。
編集 - 最近のL2ARCキャッシュアプリケーションに最適な SSDは何ですか?