15の同一のLinux RH 4.7 64ビットサーバーがあります。クラスタデータベースを実行します(クラスタはアプリケーションレベルです)。時々(毎月かそこら)ランダムなボックス(決して同じではありません)がフリーズします。
私は箱にpingを送信でき、pingが機能します。ボックスでsshしようとすると、次のようになります。
ssh_exchange_identification: Connection closed by remote host
SSHが正しく設定されている。
サーバールームに行ってコンソールに直接ログインしようとすると、Alt+ Fnでコンソールを切り替えたり、ユーザー名を入力したり、文字を表示したりできますが、を押した後Enter、何も起こりません。一度8時間待っても変わらなかった。
すべてをリモートホストに記録するようにsyslogを設定しましたが、それらのログには何も記録されていません。マシンを再起動すると、問題なく動作します。私はHWテストを実行しました-すべて問題なく、ログには何もありません。マシンはNAGIOSでも監視されており、フリーズする前に異常な負荷やアクティビティが発生することはありません。
アイデアが足りません。他に何ができるか、または確認できますか?