完全なハングの原因を調査する方法は?


19

Archマシンがハングし、マウスやキーボードに突然応答しなくなることがあります。カーソルがフリーズします。Ctrl-Alt-BackspはX11を停止せず、ctrl-alt-delはまったく何もしません。conkyおよびicewmのCPU、ネットワーク、およびディスクのアクティビティプロットは更新を停止します。数分でファンがオンになります。コンピュータに何かをさせる唯一の方法は、電源を切ることです。

起動すると、CPU温度モニターに70〜80℃が表示されます。ハングする前に、私は通常、50Cを取得するWebサーフィンのような低強度のアクティビティをしていました。

ログには、通常のシャットダウンと比較して特別なものは何も表示されません。メモリチェッカーは、欠陥なしで正常に動作します。

ハングアップした理由を調査するにはどうすればよいですか?手がかりとなる追加情報はありますか?いくつかの限定されたシェルまたはビープ音だけが手がかりを与える可能性がある場合、何らかのアクションを得るためにパワーオフよりも劇的なものはありますか?

マシンはGateway P6860 17インチラップトップ(かさばるが強力)で、最新(2011年3月)でArch 64ビットを実行しています。この問題がなく長い間Archを使用し、約1週間Ubuntuに切り替えましたその後、Archの新しいインストールに戻りました。

更新:ええ、確かに過熱しています。ある温度で、マウスとキーボードが機能しなくなり、数分間冷却すると機能することがあります。温度が高くなると、SysRqを無視するなどの完全な無応答性など、さらに悪いことが起こります。この状態に続いて、突然電源がオフになります。新しいコンピューター8Dを購入して問題を解決しました

回答:


7

マジックSysRqとカーネルダンプに関するFrederikの答えは、カーネルがまだ実行されていて、本当にハングしていない場合に機能します。カーネルが何らかの理由でビジーループしているだけの場合があります。

Ctrl-Alt-Delに応答しないという事実は、おそらくそうではなく、マシンがハードにロックされていることを示しています。これは、ハードウェア障害、または不良ドライバーのような密接に関連した何かを意味します。

メモリチェックテストは、実行時間を十分に延ばせば良好です。また、システムにストレスをかけるためにStressLinuxのような他のことも試してください。長時間実行されるベンチマークも優れています。

もう1つの試みは、UbuntuライブCDを使用してシステムを起動し、通常どおりにシステムを使用しようとすることです。このように一時的にUbuntuに戻っても問題が再発しない場合、実際にハードウェアが破損しているのではなく、不良ドライバーや誤って設定されたカーネルなどの関連するものの1つである可能性があります。Ubuntuのようなより人気のあるディストリビューションは、Distroのテスト段階で試されたマシンの数が多いために、Archのようなディストリビューションよりも安定したカーネル構成を持つ可能性があります。


Ctrl-Alt-Deleteはinitによって処理されるため、カーネルがまだ動作していても動作しない可能性があると思います。OTOH AFAIRカーネルは、パニック後にSysRqキーを待機しません。
jpc

1
それは可能です。ケースを区別するにctrlaltdel hardは、/etc/rc.localファイルに入れます。システムがロックアップしたら、Ctrl-Alt-Delを試してください。それでも何も実行されない場合、カーネルが実行されていないことは確かです。ハードウェアまたはドライバーに障害があります。
ウォーレンヤング

1
カーネルがパニックに陥っていてもMagic SysRqキーに応答するようにしました。kdumpサービスを適切にセットアップすると、完全にウェッジされたシステムがkdumpカーネルで起動するようになり、最終的には復帰するはずです。
jsbillings

1
カーネルキーボード処理コードをすばやく確認すると、Ctrl-Alt-Delと魔法のSysRqが同じレベルで処理されているように見えます。init(1)/ SIGINTの問題は別であり、他のコメントで述べたように、Ctrl-Alt-Del処理を設定してハードリブートを行うことで対処します。
ウォーレンヤング

11

フリーズに関して、いくつかのオプションがあります。

  • ここにconsole=ttyS0説明されているように、ブートオプションに追加してダンプを取得するためのボックスがボックスにある場合は、シリアルポートを使用します。ダンプファイルをキャッチするには、シリアルポートとヌルモデムケーブルを備えた2台目のマシンが必要です。

  • netconsoleを使用してネットワーク経由でダンプを取得しますこちらを参照してください

  • この方法でkexec / kdumpを使用すると、ローカルダンプを取得できますこちらを参照してください

クリーンパワーオ​​フの問題については、魔法のSysRqキーを使用してディスクを「S'ync」し、「U」マウントし、ボックスを「B'oot」することをお勧めします(文字はaltと一緒に入力する必要があります-sysrq。

編集:oops / traceをlkmlに投稿する場合は、最新の(できれば最新の)バージョンのカーネルを使用し、独自のモジュールは使用しないでください。


1
「おばあちゃん、シリアルポートとは?」と言っている若い声がたくさん想像できます。実際、私はこのマシンにもそれがあるとは思わない。
DarenW

数年前にSysReqについて読んだことを覚えています。マシンが死んでいるときにグーグルで検索できるなら!2台目のマシンのセットアップで忙しくなりたいと思います
...-DarenW
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.