ESXゲスト、vmfsでバックアップされたドライブでのハードウェアディスクエラー…これはどのようにして可能ですか？

8

ESX内のゲストはどのようにしてこのようなioの問題を見つけることができますか？

[ 40.601502] end_request: critical target error, dev sdg, sector 430203456
[ 40.601563] sd 2:0:6:0: [sdg] Unhandled sense code
[ 40.601582] sd 2:0:6:0: [sdg] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
[ 40.601622] sd 2:0:6:0: [sdg] Sense Key : Hardware Error Sense Key : Hardware Error [current] [current] 
[ 40.601661] sd 2:0:6:0: [sdg] Add. Sense: Internal target failureAdd. Sense: Internal target failure
[ 40.601695] sd 2:0:6:0: [sdg] CDB: Write(10)Write(10):: 2a 2a 00 00 02 19 64 a4 05 62 c0 80 00 00 00 00 40 40 00 00

物理的にはデータはraid6アレイ（adaptec 5805）に格納されたvmfsにあり、これは満足しているようです
また、ESXホストは問題をログに記録しません
ゲストから報告されたディスクサイズは、プロビジョニングされたディスクサイズと同じようです
esxを介してゲストに9つの等しい「ドライブ」が接続され、2つだけがこの問題を示しています

linux vmware-esxi

— トビ・オエティカー
ソース

1

I / Oエミュレーションレイヤーのバグでしょうか？ゲストのSCSIコントローラータイプを変更して、動作が変わるかどうかを確認しましたか？指定したセクターにアクセスするとエラーが再現しますか？勇気を感じている場合は、dd if=/dev/sdg bs=512 skip=430203455 count=1再読み取りに使用badblocks -w -b 512 /dev/sdg 430203457 430203455するか、読み取り-テスト書き込み-再書き込みサイクルを実行するためだけに使用します。

— the-wabbit

カーネルのどのバージョンがありますか？カーネルをアップグレードして、エラーが引き続き表示されるかどうかを確認します。

— Sacx 2012年

1

私は、ESX 4.0のWin 2008ゲストのMS SQLのバックアップボリュームで同様のことを経験しました。これは、NetAppファイラーから公開されたrawボリュームです。

ゲストOSは、そのボリュームの不良セクターを報告しています（まだ報告しています）。
これは、I / O書き込み操作が多すぎる、一時的なタイムアウト、またはファイラーの過負荷が原因で発生したと思います。
不良セクターは報告されていません。ネットアップの「ディスクスクラブ」は、すべて問題ないと言っています。ファイラーエラーは報告されていません。

しかし、とにかくこのボリュームを再作成して、それがこれを修正するかどうかを確認します。

このファイラーの他のボリュームはどうですか？「badblocks / dev / sdg」コマンドでこのボリュームを確認できますか？（注意：巨大な読み取りオーバーヘッド）

— TooMeeK
ソース

1

結局、それはハードウェア/ファームウェアの問題でした。Adaptec 5805（最新のファームウェアを使用）はすべてのRAID6ボリュームが最適な状態であると報告していましたが、1つのボリュームが「Failed Stripes」を含むことも報告しました。これの影響は、RAID6ボリュームのその部分が読めなくなるようです（質問で引用されたエラーの原因）。ESXにはこれが直接表示されないようですがdd if=/dev/zero of=file-on-damaged-volume、ボリュームに十分なスペースがあるにもかかわらず、ESXiコンソールで直接実行すると、I / Oエラーが発生しました。

ボリューム上で実行されるarcconf verify / verify_fixの量はまったくなく、物理デバイスは何かを検出または修正できました...最終的に、すべてのデータをボリュームから移動し、adaptecレベルで再作成しました。今ではすべて順調ですが、私のデータを保護するadaptecの能力への私の信頼はひどく傷つけられています。

— トビ・オエティカー
ソース

1

これは、このような状況でのSun / Oracleの手順とかなり一貫しています。不良ストライプに関するこのAdaptec FAQ記事もあり、不良ストライプの発生方法とそれらを防ぐために何ができるかについての背景情報を提供します。

— the-wabbit

はい、Sun / Oracleの記事が正しい（悲しい）軌道に乗ってくれました。このアレイに障害が発生したディスクがありましたが、それはraid6だったので、それでも冗長性があり、その後のメディアチェックで残りのディスクにエラーが明らかになりませんでした。この動作のための任意の言い訳:-(決して私たちはビンロウジュコントローラとのこのような問題を抱えていた。

— トビOetiker

私はAdaptecコントローラーをほとんど使用せず、主にLSIストレージを維持していますが、「不良なストライプ」に遭遇したのはこれが初めてです。これはAdaptecの実装に非常に特有なものなのかと思います。

— the-wabbit