ps、w、および場合によっては他のコマンドを実行すると、システムがハングするのはなぜですか?


10

理由はわかりませんが、Ubuntu 10.04LTSマシンでpsまたはwコマンドを実行できません。私は両方についてトレースを行いましたが、同じファイルの一部を読み取るときに両方とも停止しました。

これが実行結果ですps

そして、ここでは「の結果ですw

...自体を読み取るときにファイルも停止しましたか?http://pastebin.com/9qRB5eHh

何が起こっている?

回答:


9

NFSサーバーがダウンしたときに、私は一度それが起こりました。

pid 17398に関する情報を読み取ろうとしてハングし、pid 17398がD(ディスク待機)状態にあるという事実は、それも原因である可能性を示唆しています。

read(6, "Name:\tconvert\nState:\tD (disk sle"..., 1023) = 664
open("/proc/17398/cmdline", O_RDONLY)   = 6

NFSマウントがある場合は、NFSサーバーを再起動することをお勧めします。

そうでなければ、umount -f <mount>助けになるかもしれません。


再起動するとこれが修復されると思いますが、これの原因は何なのか確認したいので、私はそれをしたくありません:P

何てmount言うの?ハングする可能性もあることに注意してください(そうすべきではないと思いますが、100%確実ではありません)。
ミケル

3

ため息閉じた質問の処理はかなり貧弱です、これは私がこれをタイプするのを試みる3回目ですので、簡潔さを許してください。

まず、intrNFSマウントを使用します。デフォルトのhardNFSマウントは永久にハングします。softタイムアウト後にNFSマウントエラーが発生すると(一時的なエラーの場合は愚かになるintrことがあります)、ハングしたNFS操作を中断するかどうかを決定できます。ちょうどいい。

第二に、この愚かな問題を修正するために、私は以前に愚かなトリックを使ったことがありますが、おそらくまだ機能します。上のインターフェイスエイリアスを起動loNFSサーバーのIPアドレスを持つ(編集ifconfig eth0:0 <ipaddress>)。/etc/exportsハングしているファイルシステムをエクスポートする行を含むファイルを作成します(編集:「ハングした」ファイルシステムと同じ名前のファイルシステムをエクスポートします。マウントしたものと同じパス名を作成する必要があります) 。ローカルマシンでNFSサーバーを起動すると、ハングしたプログラムが「ファイルが見つかりません」または「ディレクトリが見つかりません」などのエラーでエラーが発生し、再起動せずに作業を続行できます。

終了したら、NFSサーバーを再びオフにし、インターフェースのエイリアス削除することを忘れないでください。


私はintr NFSマウントを使用しています...どこで反対を見ましたか?
user69239、2011

「2段落目」についてよくわかりません…ごめんなさい!:(
user69239 '26 / 02/26

@ user69239には詳細を指定しなかったため、デフォルトのhardマウントタイプを使用していると想定しました。:)
sarnold、2011

@ user69239、私は愚かなトリックでパラグラフを少し拡大しました-私はそれが今理解しやすくなることを願っています。:)
sarnold、2011

2

なぜNFSに重点を置いているのかわかりません。質問者はNFSを実行していますか?それについては何も見ませんでした。

とにかく、これは/ proc以来非常に奇妙な問題です。次のことを試して、問題の詳細を確認してください。

  • / procに移動して他のpidディレクトリを見つけ、それらのディレクトリからcmdlineファイルを読み取ってみます。
  • / proc / pid / statも読んでみてください。それでもうまくいかない場合は、システムにカーネルの問題があると思います。
  • netstat -nを実行できますか?これは、/ procのさまざまな部分から読み取るため、機能する可能性があり、procインターフェースの問題が少ないことを示します。
  • mountで/ procを再マウントしてみてください-o remount / procこの状況でこれがどうなるかわかりませんが。

再起動することをお勧めします。procからデータを読み取ることができない場合、他の方法で何を見つけることができるかわかりません。それが再び起こるなら、心配し始めてください。


はい、私はNFSによ...問題はS3ヒューズ・システムを介してファイルをコピーしている
user69239

fuseとnfsは別物です。できる限りの詳細を提供する必要があると思います。あなたはstraceをたくさん提供しましたが、あなたのセットアップとこれがどのように始まったかについてもっと知ることは必要な最初のステップです。
deltaray、2011

私のホスト(Amazonの小さなインスタンス)から、allow_otherオプションだけでs3f3 1.40に接続されたS3に大量の "cp"コマンドを実行すると、問題が発生したようです。私のUbuntuは通常の10.10インストールで、通常のアップグレードが行われています。他には何もありません。本当に:P
user69239
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.