カーネル:ジャーナルコミットI / Oエラー


9

Dell 1950サーバーで問題が発生しています。RHEL 4.6をOracleおよびその他のソフトウェアとともにここにインストールしています。

sshセッションとサーバーに接続したモニターで、「カーネル:ジャーナルコミットI / Oエラー」というエラーメッセージがランダムに表示され、「EXT3-fsエラー(デバイスsda5)」というエラーが表示されます。 start_transaction:ジャーナルは中止されました。」

これは何度か発生しましたが、インストール中の同じ時点では発生していません。実際、前回はシステムが稼働していて、データベースをOracleにインポートしようとしていました。

これはいくつかのハードドライブで発生したので、問題ではないと確信しています。これは私にレイドコントローラーが悪くなっていると思います。

皆さんはどう思いますか?

**更新**

それが悪いハードドライブだったことはかなり確かです。私はサーバーに別のドライブを投げました、そしてそれは問題なしで約48時間走っていました。

回答:


9

以前にこれらのエラーを見たことがありますが、インストールプロセス中は見ていません。

これは、ドライブに十分なエラーが発生し、OSがそれを読み取り専用モードにしたことを意味します。完全なログを見つけることができた場合は、表示された完全な障害エラーの前に再試行して機能したI / Oエラーがおそらくあるでしょう。言及された実際のブロックとの何か。

ストレージシステムのエラーです。それは間違いなくRAIDカード、RAIDアレイのドライブ、カードからドライブへのケーブル、ドライブが接続するバックプレーン、RAIDカードが接続されているスロット、ハードドライブの電源、またはその他のものですCPUと実際のストレージブロックの間。


2

3つの可能性が思い浮かびます:

  1. メモリの問題があります(「ランダムな」クラッシュを引き起こすことがよくあります)。あなたがそこにECC RAMを持っているなら、明らかにそれはあまりありそうにありません。

  2. バスに問題があります。数年前、TyanデュアルOpteronマザーボードのAPICコントローラーが壊れて同じ問題が発生しました。それを示唆する他のログエントリがありましたが、症状の大部分は、自動読み取り専用の再マウントによるディスクドライブのランダムな破損でした。私の場合、それは外部FC RAIDボックスであり、問​​題がなかったので、ディスクに関連していないことを知っていました。

  3. RAIDコントローラは二段です。

これは私が問題を考える順序です。


おそらくメモリの問題ではありません。これらは、ストレージだけに限定されるのではなく、segfaultやランダムエラーを引き起こす可能性が高くなります。
フライハイト2009年

そうだね。しかし、インストールまたは初期のブート状況では、メモリ使用量の大部分はバッファキャッシュであるため、問題が最初に発生する傾向があります。マシンがしばらくの間ロードを実行していると、ユーザープロセスがメモリI / Oを支配するため、segfaultが普及します。そうは言っても、PE1950はXeonプロセッサーとECC ramを備えている必要があるので、RAMはそれを検出してLinuxに報告できるはずです。
Alexandre Carmel-Veilleux

2

それはあなたが言ったようにRAIDコントローラーが故障している可能性があります(もしあればRAIDコントローラーを試してください)。コントローラーのドライバーである可能性があります(可能な場合は代替ドライバーを確認します。 。)カーネルである可能性があります(RHELではかなりテストされていますが、可能性は低いです)。RAMがブロックキャッシュをめちゃくちゃにしている可能性があります。

一見ランダムなエラー動作に基づいて、ハードウェアの問題が最も可能性の高い原因です。


2

ディスク、特にルートパーティションがいっぱいでないことを確認します。dfを使用して、ファイルシステムのディスク使用量を確認します。

df -h

使用率が100%に近いか等しいパーティションを探す


-5

試してください:

今すぐシャットダウン-rF

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.