タグ付けされた質問 「troubleshooting」

トラブルシューティングは問題解決の一形態であり、故障した製品やプロセスの修復によく適用されます。

13
Unixで実行中のプロセスの環境変数?
Unixシステムの環境変数に関連するいくつかの問題をトラブルシューティングする必要があります。 Windowsでは、ProcessExplorerなどのツールを使用して特定のプロセスを選択し、各環境変数の値を表示できます。 Unixで同じことをどのように達成できますか?echoingとenvcmdは現在の値を表示するだけですが、実行中のプロセスが現在使用している値を表示したいと思います。

3
/ var / lib / mysqlディレクトリのibdata1ファイルは何ですか?
Webminコントロールパネルにログインすると、実質的にすべてのディスク領域がいっぱいになっていることに気付きました。システムで最大の10個のファイル/ディレクトリを検索しましたが、ibdata1というファイルが約94GBのスペースを占有していることがわかりました。これは/ var / lib / mysqlディレクトリにあります。 ibdata1は何をしますか?削除しても安全ですか?私の推測では、それはある種のダンプであるが、それは単なる推測だ。

7
CPU使用率は高いが、平均負荷は低い
CPU使用率は高いが負荷平均はかなり低いという奇妙な動作に陥っています。 この動作は、監視システムの次のグラフで最もよく説明されています。 11:57頃に、CPU使用率は25%から75%になります。負荷平均は大幅に変更されません。 それぞれ2つのハイパースレッドを持つ12コアのサーバーを実行します。OSはこれを24個のCPUと見なします。 CPU使用率データは、/usr/bin/mpstat 60 1毎分実行することにより収集されます。all行と列のデータは%usr上のチャートに示されています。これは、「スタック」使用率ではなく、CPUあたりの平均データを示していると確信しています。グラフで75%の使用率が表示されていますが、プロセスでは約2000%の「スタック」CPUを使用していることがわかりtopます。 負荷平均値は、/proc/loadavg毎分から取得されます。 uname -a 与える: Linux ab04 2.6.32-279.el6.x86_64 #1 SMP Wed Jun 13 18:24:36 EDT 2012 x86_64 x86_64 x86_64 GNU/Linux Linux distは Red Hat Enterprise Linux Server release 6.3 (Santiago) マシンにかなり高い負荷がかかっている状態で、2台のJava Webアプリケーションを実行します。マシンあたり100リクエスト/秒と考えてください。 CPU使用率データを正しく解釈すると、CPU使用率が75%の場合、CPUが平均75%の時間でプロセスを実行していることになります。ただし、CPUが75%の時間でビジーである場合、より高い負荷平均は見られませんか?実行キューに2〜4個のジョブしかないのに、CPUが75%ビジーになる可能性はありますか? データを正しく解釈していますか?この動作の原因は何ですか?

3
ページ割り当てエラー-メモリが不足していますか?
最近、kern.log私のサーバーの1 つでこのようなエントリに気付きました。 Feb 16 00:24:05 aramis kernel: swapper: page allocation failure. order:0, mode:0x20 知りたい: そのメッセージはどういう意味ですか? サーバーのメモリが不足していますか? スワップの使用率は非常に低く(10%未満)、これまでのところ、メモリ不足が原因でプロセスが強制終了されることはありませんでした。 追加情報: サーバーは、Debian 6.0を実行するXenインスタンス(DomU)です 512 MBのRAMと512 MBのスワップパーティションがあります 仮想マシン内のCPU負荷は平均0.25を示します

9
トラブルシューティングルール、トラブルシューティングへのアプローチ?[閉まっている]
閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集して事実と引用で答えられるように質問を更新してください。 5年前に閉鎖されました。 難しいネットワーク/ハードウェア/ソフトウェアの問題をトラブルシューティングするときに頼る一般的なルールはありますか? 例:「周辺機器を2台目のコンピューターでテストすることで問題の原因を特定する」または「デバイスの電源を入れるのに可能な限りハードウェアを取り外し、問題を再現できるまでコンポーネントを1つずつ追加する」など

8
「低速」ネットワークのトラブルシューティング
ある時点で「ネットワーク」が「遅い」という不満がありました:1つの部屋(スイッチ)または1つのコンピューターにローカライズされるかもしれません。単にインターネット(DNS?ブラウザーの問題?) (長時間実行されるSQLクエリ?AVスキャンの実行?)。 システムやアプリケーションの明らかな問題を除外した場合、ネットワークの速度低下や不安定な動作をどのようにテストしますか?OSIレイヤーを上に進めていますか?もしそうなら、各レイヤーをどのようにチェックしますか?未知の環境で物理ネットワークに問題がないことを確認するにはどうしますか?ブロードキャストが多すぎる、またはブロードキャストストームが発生した場合はどうですか?レイヤー3以上?traceroute?他のヒント、方法、アイデアはありますか?あらゆる規模のネットワークに必要な機能とツール(ポートミラーリング、SNMP、監視など)が必要ですか?

23
実稼働環境でターミナルサーバーユーザーをログオフ、切断、またはリセットできない
2008 Terminal Serverでユーザーのセッションを切断、ログオフ、またはリセットする方法に関するアイデアを探しています(完全にロックされているため、ユーザーとしてログインできません)。これは実稼働環境であるため、今のところサーバーを再起動するか、システム全体で何かを行うことは問題外です。これに役立つPowershellのトリックはありますか? 同じターミナルサーバー(タスクマネージャー、ターミナルサービスマネージャー、リソースモニターから)から直接接続を切断し、ユーザーをログオフしてセッションをリセットし、セッションのプロセスも強制終了しましたが、結果はありませんでした。 助けて! 更新:考えられる他の試みが機能しなかったため、サーバーを再起動しました。誰かがこの1つの問題についてより多くの情報を持っていることを期待して、この質問を公開したままにします。

10
他のワークスペースの問題のトラブルシューティングのエチケット
目に見えて動揺した同僚が、今朝、テクニカルサポートチームに連絡しました。彼女は、私たちのチームのメンバーがワークスペースを変更したことに気付きました。 彼女のモニターはオフになりました(彼女はスタンバイモードを期待していました)。 彼女の椅子の設定が変更されました。 彼女はログアウトされていて、チームメンバーの名前の1つがWindowsログインボックスにありました。 最初の問題は、なぜスタンバイノードからPCが再開するのを見ていないのかと考えたため、混乱とフラストレーションにつながったようです。 2番目の問題は、敬意と快適さを必要とするきっかけとなったようです。どうやら彼女が快適に感じるのにぴったりの設定を見つけるのに時間がかかるようです。 3番目の問題は、1〜2日で3か月の休暇をとる前に仕事を終わらせたいという彼女の欲求から生じたようです。彼女の古いPCの企業ウイルススキャナーが毎週スキャンを完了するには1〜2時間かかりますが、これはログイン時にトリガーされるようです。これにより、生産性が低下します。 私たちのチームがこれらのことをする必要がある理由について彼女が聞いたと感じた後、彼女は快適な状態に戻りました。しかし、私は「エチケット」が彼女のすべてのこれらの反応を引き起こすことを回避/最小化したのだろうかと思いました。 Googleの大まかな検索とここでの検索では、特に洞察に満ちたものは何も返されませんでした。だから、他の人のワークスペースの問題をトラブルシューティングする際に、読者からの回答を集めてベストプラクティスのリストを作成すると思いました。 貢献してくれてありがとう。

6
pingされたIPアドレスとは異なるIPアドレスでpingが応答されたのはなぜですか?
MSSQLクラスタリングソリューションをセットアップしようとしているときに、ネットワークに関連する専門知識の範囲外の問題に直面しています。 私のノードに使用する無料のIPを見つけようとしていました。ネットワーク管理者に無料のIPアドレスを教えてもらいました。そして議論のために、彼は私に10.40.1.205のIPを与えました。 クラスタリングのセットアップ中に特定のIPを使用しようとすると、IPが使用されたというSQLの苦情。 サーバーからIPにpingを試行しましたが、「... 10.40.59.69 ...?」から返信が返ってきました。 何がこのようなことを引き起こしているのか、さらに重要なことはそれをトラブルシューティングする方法はありますか?

7
予期しないLinuxサーバーのシャットダウンを調査する方法は?
Debian 6でraid 10に4xSSDを搭載した新しいXeon 55XXサーバーでは、サーバーの構築後2週間以内に2回のランダムなシャットダウンが発生しました。シャットダウンする前に帯域幅ログを確認しても、異常なことを示すものではありません。サーバーの負荷は通常非常に低く(約1)、遠くに配置されています。サーバーがダウンしている間は停電はないようです。 / var / logを見ていることは知っていますが、どのログを調査すべきか、何を探すべきかはわかりません。だからあなたのヒントに感謝します。

8
プログラムがスケジュールされたタスクとして適切に実行されない
状況 いくつかのファイルを準備し、プログラム(.exe)を実行し、そのファイルを削除するバッチスクリプトがあります。 このタスクは1時間ごとに実行する必要があるため、スケジュールされたタスクを使用してこれを構成しようとしています。問題は、前述のプログラムがタスクから呼び出されたとき(.batスクリプトを介して、または.exe直接呼び出したとき)に適切に実行されないことですが、ログに警告またはエラーメッセージが表示されません。 セットアップ タスクは、すべての特権が適切に設定されたWindowsサービスアカウントとして実行するように構成されています。RDP経由でログオンにこのアカウントを使用する場合は、私が実行できる.batと.exe直接の問題もなく、それでも仕事は何もしないように表示されます。プログラムは常にファイルを変更し、タイムスタンプで変更されたものはタスク中に変更されないため、これは容易に観察されます。 スケジュールされたタスクログで、プロセスの開始、終了などのタスクの情報メッセージを取得します。ただし、「結果コード」は111(運がなくてGoogleに試されました。 「これはまったく無関係です)。アプリケーションログに、まったく何も表示されません。 私が疑うのは問題です GUIは対話を必要とせず、操作後に終了するため、GUIは必要ありませんが、プログラムは何らかのスプラッシュスクリーン(実際には通常のウィンドウです)を生成する古い怪物です。ウィンドウが約2秒間表示されます。 GUIのこの要件は、タスクの失敗と関係があると思われますが、よくわかりません。タスクが(RDPを介して)実行されるユーザーでログインすると、スケジュールされたタスクを開始するときにウィンドウが表示されません。 GUIについて編集する メインウィンドウなしで(を使用してProcessStartInfo.WindowStyle = ProcessWindowStyle.Hidden)プログラムを起動する非常に小さなC#実行可能ファイルを作成しました。この方法でも、スケジュールされたタスクはプログラムを正常に起動することに成功しませんが、戻りコードはになりました0。 更新 「ユーザーがログオンしているかどうかに関係なく実行する」ようにタスクを構成し、run with highest privilegesオプションがオフになっている場合、エラー値は2147943859です。 トラブルシューティングを行うにはどうすればよいですか? OS = Windows Server 2008 R2 SP1 さらに情報が必要な場合は、コメントでお知らせください。

4
kdump / crashを使用してOOMの問題を調査する方法は?
問題 複数の「メモリ不足」メッセージの後にサーバーがクラッシュし、原因を特定しようとしています。ユーザーランドにある場合-どのプロセス。カーネル内にある場合-どのカーネルモジュール。 詳細 クラッシュユーティリティを使用して、サーバーでOOMをトリガーした原因を調査する方法を見つけようとしています。 新しいサーバーペアのインストールの一環として、14TB DRBDデバイスの初期化を開始しました。その頃、DRBDシンカーレート構成で遊んでいるときに、結合されたネットワークインターフェイスの一部を上下させたときに、サーバーの1つがクラッシュしました。30秒間で39のOut of memory: Kill process ####メッセージが生成されました。その後、次のようにクラッシュしました: Kernel panic - not syncing: Out of memory and no killable processes... システムクラッシュによりkdumpがトリガーされました。これでvmcore.flat、問題を調査するのに簡単に使用できる素敵なファイルができましたが、すべてのメモリがどこに行ったのかを見つけるのに苦労しています。 私が知っている唯一のリソースはDedoimedoのサイトで、これには素晴らしい説明があり、Kernel Crash Bookがあります。これらは回答で提案されている唯一のリソースでもあるためcrash、調査する唯一の方法であると思います。 インシデントで事後分析を行う別の方法があれば、喜んで受け入れます。それはcrash私が知っている唯一のユーティリティです。私が今持っているのはvmcore.flatファイルだけです、そして、私が知る必要があるのは、どのコンポーネントがそのメモリをすべて使い果たしたかです。カーネルモジュールの問題、より具体的にはボンディングモジュール(インターフェイスをダウンさせるとトリガーされる)、DRBDモジュール(CentOS 6.3のツリーからビルドされたバージョン8.3.15)、または10Gイーサネットモジュール(mlnx_en停止したインターフェイスであるツリー、またはbnx2xアクティブのままであったインターフェイスであるツリーから構築されます)。私が知る必要があるのは、疑念を検証する方法があるかどうかだけです。 これまでのところ、クラッシュユーティリティを使用して次の情報を抽出することができました。 使用メモリ量を確認しました $ crash /usr/lib/debug/lib/modules/2.6.32-279.5.2.el6.x86_64/vmlinux vmcore.flat .... crash> kmem -i PAGES TOTAL PERCENTAGE TOTAL MEM 16482587 62.9 GB ---- FREE 54610 …

4
ワイヤレスの問題をどのようにトラブルシューティングしますか?
一見論理的な理由もなく、不安定なワイヤレス接続を持つLAN上のマシンをトラブルシューティングする必要がある場合があります。ほとんどの場合、「通常の」ネットワーク接続に反して、問題をデバッグまたは解決するためにどこから始めればよいのかわかりません。 ヒントはありますか? ありがとうございました!

1
不明な理由でハードディスクがオフラインになる
以下のセットアップを実行している7つのシステムがあります。たまに別のディスクがオフラインになりますが、詳しく調べてみると、ディスクは正常で故障しておらず、少なくとも1年間は問題なく動作します。これは7つのシステムすべてで発生するため、動作している単一の部品(ケーブルなど)が存在する可能性は低いと思いますが、代わりに一部の部品の組み合わせがわずかに非互換です。 問題は、非互換性がある正確なポイントを見つけることです。 (代わりに、コマンドラインからハードディスクを仮想的に再装着できる回避策がある場合は、https://serverfault.com/questions/523315/re-activate-deviceに回答できる場合があります-that-is-is-considered-dead)。 サーバーハードウェア:Dell 1950、Dell R815、Dell R715。 オペレーティング・システム: $ uname -a Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux コントローラ: $ lspci |grep 22: 22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03) $ sas2flash -listall LSI Corporation SAS2 Flash Utility …

12
手つかずのUNIXサーバーが暴走し始めたときに最初に確認することは何ですか?
したがって、このきちんとセットアップされたUNIXサーバーを使用すると、超高速で正常に動作し、数か月間すべてが素晴らしい状態になり、突然、あらゆる種類の奇妙なエラーがさまざまな異なるサービスで発生し始め、それ自体ではあまり意味がありません。 、一緒にはるかに少ない。 マシンへのsshセッションを取得したらすぐに確認すべき安価なものは何ですか? 私は特に、明白ではないコマンドやまれな状況を強調するトラウマストーリーに興味がありますが、明白なことは人によって異なるため、自由にリストアップすることができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.