LInux:「ランダムな」ハングや自発的な再起動の原因を診断/分離するにはどうすればよいですか?


20

(元々serverfaultに投稿されました)

だから、原因が何であるかを推測するのではなく(私のお金はnvidiaドライバーにかかっています)、どこでいくつかの事実を突き止めようとしていますか?

私は何度も/ var / logを使用しましたが、そこにはたくさんのものがあり、重要な部分を(まだ)見つけることができません。


背景:ショートバージョン

WinXPが利用可能になった直後にUbuntu Karmicに移行しました。

それ以来、次のいずれかとして現れる、一見ランダムに見える一連のクラッシュがありました。

  • 自発的な再起動
  • USBキーボードとマウスが応答しなくなる完全なロックアップ(LEDがすべて消灯するまで)。また、通常、これが発生するとボックスにsshできなくなります。

私は多くの検索を行いましたが、Nvidiaが主な容疑者のようですが、本当の原因が何であるかを見つけるためにどこから探し始めるのかわかりません。

serverfaultユーザーは、MemtextX86 +でRAMをチェックすることを提案しました。エラーは見つかりませんでした。ビデオカードの温度を監視することも提案されていますが、現在検討しています。

以外、提案はありますか?



背景:ロングバージョン

ときどき、クラッシュすることなく1週間続けて、2日間で5日間過ごすことができます。

可能性のある容疑者を排除したいという欲求に動機付けられて、私は時間の経過とともにいくつかの変更を加えましたが、役に立ちませんでした:

  • 当初は仮想化にKVMを使用していましたが、現在はVirtualBox OSEを使用しています
  • カーネルでNFSを実行していましたが、現在はSambaを使用しています
  • Compizを使用していましたが、それをオフにしました
  • 64ビットKarmicから32ビットにロールバックしました(他の理由でも)
  • Ubuntu、Kubuntu、Xubuntuを試しました。毎回同じ問題があります(ただし、最近はXFCEよりもGnomeの方が頻繁に発生しているようです)。
  • Nvidiaドライバーをバージョン185からバージョン96(NVIDIA Linux x86カーネルモジュール96.43.13 Thu Jun 25 18:42:21 PDT 2009)に戻しました。これにより、エラーの頻度が減少したようです。


その時点で何が実行されているかという点では、これは異なる場合があります。以下は一般的なものですが、クラッシュするたびに実行されるとは限りません。

  • Firefox 3.5
  • 1つまたは2つのWindows XP VMを備えたVirtualBox OSE
  • Skype
  • RhythmboxまたはExaile


私のハードウェアは2〜3歳です。

  • Core 2 Duo 6300
  • 4GB RAM
  • そのビンテージのIntelマザーボードのある種
  • Nvdia GeForce 7300 GSチップセットを搭載したAsusデュアルヘッドビデオカード
  • 2 x SATA HDD
  • デュアルモニター(したがって、独自のnvidiaドライバーに依存しています)


私はシステムのアップデートを最新の状態に保っています。

上記のデータが、調査する価値のある特定のタイプのログまたは構成を提案するように誰かを促すことを願っています。


アップデート1

クラッシュしただけで、スピーカーはおかしくなりました。グーグルで調べたところ、過去にPulseAudioにいくつかの問題があったようです。これが適切かどうかはまだわかりませんが、PulseAudioはクラッシュするたびに実行されます。


更新2

Debianのシステム管理者ガイドへの@CarlFのリンクをたどると、次回のクラッシュ時に試してみる魔法のsysrqキーに導かれました。これが原因について多くの手がかりを与えるというわけではありませんが、少なくとも私はうまくシャットダウンすることができれば幸いです。


アップデート3

lm-sensorsは私のGPUがほぼ70C / 158Fで動作していると報告しています-興味深いです。推測しなければならない場合、これは重要な手がかりだと思います。


更新4

最後の更新の直後にシステムの内部をエアダスターで叩きます-最終的な結果:それ以来1回だけクラッシュします。これを熱問題と呼びます。


3
優れた書式設定と背景情報、すべての質問がこのようになったことを望みます。+1。
ジョンT

回答:


8

Debian管理者ガイドからの良いアドバイスがここにあります:http : //www.debian-administration.org/articles/492


実際のハードウェア障害の兆候である非情報ログについて彼らが言わなければならないことを見るのは興味深い。最後の/ var / log / messageエントリと再起動の間に6時間のギャップがあります。うーん。
LRE

リンクがログにハードウェアの問題に相当するものがないことを明確にしたという理由で受け入れられました-私を正しい方向に導いてください。
LRE

4

起動時にハードウェアに問題があるかどうかを最初に確認することをお勧めします。起動プロセスは、カーネルリングバッファからにデータを記録します/var/log/boot.log。システムの起動後、新しいメッセージがこのバッファにフラッシュされ、dmesgコマンドで現在の状態を表示できます。調査する必要がある重要なログは/var/log/messagesです。これには、タイムスタンプ、機能、エラーの優先度、およびそれらを生成したアプリケーションが含まれます。エラーをデバッグする場合、タイムスタンプを使用できるようにすることは貴重な資産です。

ランダムなロックアップは、間違いなくハードウェア関連のサウンドです。マザーボード上のすべてのハードウェアを取り付け直し、memtest86 +を実行してください。


/ var / log / messagesに「imklog 4.2.0、log source = / var / run / rsyslog / kmsg started」という行があります。これはシステムブートの良い指標ですか?その場合は、それを使用して、ログの特定の領域を特定し、元に戻すことができます。
LRE

はい、起動後の最初の行ではないにしても、最初の行の1つだと思います。これはカーネルログ入力モジュールです。
ジョンT

2

メモリ、プロセッサ、その他のチップを取り付け直しましたか?また、いくつかの可能性を排除するために、別のOS(FreeDOS)を実行してみてください。

ヒントとして、nvidiaドライバーを使用せずに、Gnomeを介して2つのモニターを非常にうまく使用することもできます。


デュアルモニターを使用するには、nvidiaの専用ドライバーが絶対に必要であると言えます。それらを必要としない正しい方向に私を向けることができますか?
LRE

私は間違っているかもしれません。私は少し調べて、xinerama(ドライバーには拡張機能があると思います)への参照を参照しましたが、非独占的なdriverwsに関連するものは何もありません。残念ながら、nVidiaカードを搭載したマシンをいじることができません。
Nerdfest
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.