ZFS-L2ARCキャッシュデバイス障害の影響(Nexenta)


10

私が持っているHPのProLiant DL380 G7のサーバはNexentaStorストレージユニットとして実行されています。サーバーには36GBのRAM、2つのLSI 9211-8i SASコントローラー(SASエクスパンダーなし)、2つのSASシステムドライブ、12のSASデータドライブ、ホットスペアディスク、Intel X25-M L2ARCキャッシュ、およびDDRdrive PCI ZILアクセラレーターが搭載されています。このシステムは、複数のVMWareホストにNFSを提供します。また、アレイには約90〜100 GBの重複排除されたデータがあります。

パフォーマンスが突然低下する2つのインシデントがありました。VMゲストとNexenta SSH / Webコンソールにアクセスできず、機能を復元するにはアレイを完全に再起動する必要があります。どちらの場合も、失敗した、または「オフライン」になったのはIntel X-25M L2ARC SSDでした。NexentaStorはキャッシュ障害についての警告に失敗しましたが、一般的なZFS FMAアラートが(応答しない)コンソール画面に表示されました。

ここに画像の説明を入力してください

zpool status出力は示しました:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

これはNexenta内からアラートをトリガーしませんでした。

L2ARCの障害はシステムに影響を与えないだろうという印象を受けました。しかし、この場合、それは間違いなく犯人でした。RAID L2ARCに対する推奨事項を見たことがありません。不良SSDをサーバーから完全に削除すると動作が再開しましたが、デバイス障害の影響(およびNexentaStorからの通知の欠如も同様)が心配です。

編集 - 最近のL2ARCキャッシュアプ​​リケーションに最適な SSDは何ですか?


SSDまたはSATAポートにハードウェアの問題がある可能性はありますか?
tegbains

HP SASバックプレーンです。多くの(Linux)展開で障害が発生したり、問題が発生したりしたことは一度もありませんが、その障害はコンシューマークラスのSSDの機能であると確信しています。障害は許容できますが、残りのディスクとストレージシステム全体への影響がより大きな問題です。
ewwhite

特に、Pogo Linux(私はNexentaの最大のインテグレーター/リセラーであると理解しています)は、Intelのファームウェアの新しいバージョンの問題により、L2ARCまたはZILのオプションとしてIntel X25デバイスを提供していません。
スカイホーク

そして、推奨される代替品は(メーカー、モデル、価格)ですか?
ewwhite 2011年

1
ちなみに、新しいIntel 320シリーズは、L2ARCまたはZILデバイスとして試してみるのも面白いかもしれません。これは、コンデンサーに支えられており、書き込み耐久性は制限されていますが(モデルによっては最大60テラバイト)、残りの摩耗率はSMART属性E9を使用して追跡されます(100から始まり、1までカウントダウンします)。多くのZFSユーザーは、E9が1に近づかないようにするために必要な頻度でこのデバイスを交換できると思います。累積費用は、同程度のサイズのSLCドライブのコストにさえ近づくことさえありません。
スカイホーク2011年

回答:


10

ZFSはディスクI / Oを実行しません。ZFS以下のデバイスドライバはディスクI / Oを実行します。デバイスがタイムリーに応答しない場合、またはこの場合のように、エクスパンダー上の他のすべてのデバイスが中断される場合、ZFSの障害として認識されません。ZFSが認識するのは、遅いI / Oだけです。

Intel X-25Mファームウェアには、高負荷時の動作に影響を及ぼし、リセットストームを引き起こす可能性のあるバグがあります。この問題はすべてのOSに影響し、OS層では解決できません。修正または修正については、ハードウェアのサプライヤーにお問い合わせください。

読み取りがL2ARCによって満たされることが期待される場合、読み取りはそこで試行されます。次に、ZFSは下位層のドライバーに依存してエラーを報告します。この場合、ドライブは、ドライバー、デバイス、およびデフォルトのタイムアウト設定に応じて、I / Oが失敗したと宣言する前に最大5分間リセットと再試行を続けます。下位層のドライバーがI / Oが失敗したと宣言した後でのみ、ZFSはプールで再試行します。

NexentaStorのボリュームチェックランナーとディスクチェックランナーは、追加のエラーメッセージを探し、電子メールと障害ログを介して警告します。3.1リリースでは、ディスクチェックランナーが改善され、SSDのファームウェアが壊れていることで特に発生する状態を警告できるようになりました。

結論:ハードウェアに障害があり、修正または交換する必要があります。


2
ありがとうございました。そのため、Intel X-25はもう使用しません。テスト済みの、新しいL2ARC SSDデバイスを交換することをお勧めします。
ewwhite 2011年

3

X25-M SSDをバックプレーンに接続していますか?Nexentaには既知の問題があり、バックプレーン経由でL2ARCにアクセスします。あなたの最善の策は、SSDをマザーボードのSATAポートに直接接続することです。AHCIも使用するように設定されていることを確認してください。

このサーバーでミッションクリティカルなものを実行している場合は、SLC SSD(X25-EやSTEC SSDなど)に切り替えます。そうは言っても、そうでない場合はX25-Mで大丈夫でしょう。


はい、通常のドライブベイを介して接続しています。L2ARC(SunおよびHPハードウェア)と同じIntel SSDを実行している他のインストールがあります。しかし、これは私にトラブルを与えました。私の調査では、L2ARCはZILほど堅牢である必要はない(したがって、SLCおよびPCIベースのZILソリューションとL2ARCのコンシューマドライブの使用)必要があることが示されているようです。これは変わりましたか?
ewwhite 2011年

SSDをマザーボードに直接接続してみて、機能するかどうかを確認します。予備のX25-Mが動作している場合は、現在のX25-Mを交換して、SSD自体が不良かどうかを確認できます。SLC SSDの場合:リスクのレベルによって異なります。SLAでソフトウェアを実行していて、決してダウンすることはなく、高速で実行する必要がある場合は、ハイエンドSSDを購入する方が安くなることがあります。
zippy

私がオンラインで見たほとんどの記事や議論で、L2ARCにはIntel X25-Mが推奨されていると言っています。それがもはや当てはまらない場合、どのデバイスが推奨されますか?
ewwhite

1
@ewwhite:理論的には、ZFSはディスクの読み取りにフォールバックできるため、L2ARCデバイスの障害は無停止である必要があります(明らかに、パフォーマンスに影響があります)。実際には、SSDの動作によってトリガーされるZFSまたはSCSIドライバーのバグにぶつかったようです。
トム・ショー

1
@ewwhite:もう少し実用的なアドバイスをしたいと思います。次にシステムウェッジが実行されときにシステムクラッシュダンプを生成する場合は、こちらの手順に従ってください。この種類のダンプは、Illumos開発者に役立つ場合があります。
トムショー

0

Ed、比較的手頃な価格からかなり高価なものまで、使用できるものがいくつかあります。私はすべてのケースでSAS SSDを配備することを好み、STECとPliantの両方で非常にうまく機能しました。どちらも、L2ARCデバイスを搭載していることで有名に動作するMLCドライブを提供しています。まだテストされていませんが、間もなく登場するのは、SLC SAS 2.0であり、「高価ではない」と噂されているSeagateのSSD製品です。乞うご期待....

-PB

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.