根本原因分析の実行


9

根本原因分析を実行する方法について詳しく知りたい。多くの場合、私たちの部門はユーザーに再起動(Windows XPシステムの3つ)を試みるように指示しています。これにより、実際には多くの問題が「修正」されます。私が急いでいるとき(そして時々給与を受け取ることがこれに寄与することがあります)、実際に根本原因分析を実行する代わりに、問題を迅速に解決するための回避策を見つけようとするかもしれません。

ほとんどの場合、ログファイルまたはイベントビューアでこの情報を探しています。Sysinternalsツールを使用したり、パケットスニファを実行したりすることもあります。おそらく、Sysinternalsプログラムを必要以上に使用していません。これらのツールをどのように使用するか、いつ、どのような理由で役立つかについての具体的な洞察。

これは幅広い質問ですが、使用する方法論、ツールなどについて簡単に説明していただけますか?SFの多くの管理者が、より詳細なプロセスを使用しているようです。これが質問の絞り込みに役立つ場合は、AD環境内のWindowsサーバーとクライアントに関連するツール、ヒント、トリックなどに最も興味があります。

回答:


5

問題の根本的な原因の特定は、問題によって異なります。通常、ログファイル/ sysinternalsツール/パケットスニファを調べるという本能は正しいです。
WindowsシステムでMS悪意のあるソフトウェアの削除ツールと優れたAVプログラムを実行することを追加します(そして、Cyber​​Defenderや他のAVトロイの木馬マルウェアのようなものがないことを確認します。

Stack Exchangeの人々は、「5 Whys」メソッド(http://en.wikipedia.org/wiki/5_Whys、また、実際にそれを示すこの素晴らしい短いPDF)の支持者です。根本原因分析を行うための非常に価値のあるツールです。


その上で、2つの広いカテゴリーと、私が通常尋ねる質問/チェックするもののいくつかを描きます。


「Wordが何度もクラッシュする」など、ネットワークに関係のない不思議な動作

尋ねる基本的な質問:

  1. 何が変わったの?
    (答えを「何も」取らないでください-それは最初の嘘です。新しいソフトウェア、パッチなどはすべて重要です。)
  2. 問題が発生したとき、あなたは何をしていましたか?
    (ここでできるだけ多くの詳細を抽出するようにしてください-上記の私の例では、「挿入イニシャルのホットキーを押して、プログラムがクラッシュしました」)
  3. 以前に機能したことはありますか?
    (もしそうなら、上記の(1)からのものを見始めてください)
  4. システムで問題を再現できますか?
    (もしそうならそれは良い兆候です:ベンダーへのテクニカルサポートコールが役立つかもしれません。そうでなければ、これらの質問の残りについてユーザーのシステムを調べる必要があるでしょう。)
  5. ユーザーの環境とあなたの環境の違いは何ですか?
  6. ユーザーのハードウェアが疑わしいですか(メモリテストを実行する、ハードドライブからのSMARTエラーを探すなど)。
  7. ここまで来たら(ハードウェアのチェックアウト、ソフトウェアのチェックアウト、ウイルス、マルウェアはありません)、1日ユーザーにアクセスしてください。彼らの仕事の習慣を観察してください。
    私の会社には、特定の頻度でマウスをクリックすることに関連する不思議なシステムロックアップがありました(理由はまだわかりませんが、再現できるようにするために、ユーザーがそれを実行していることを1日練習する必要がありました。それは確実に)

ネットワークに関する問題

これの多くは似ていますが、より具体的なガイダンスがいくつかあります。

  1. 何が変わったの?
    (ええ、あなたはいつもそこから始まります)
  2. 何が壊れていますか?
    • Webページにアクセスできますか?ダウンしているのは1つだけですか?もしそうなら、それは皆のためですか、それともあなただけです
    • 名前でインターネット上のものにpingできますか?
      IPではどうですか?tracerouteはどこまで行きますか?
  3. いつ壊れますか?
    • いつも同じ時間ですか?
    • N日ごとの短い期間?
    • ランダムに(本当にランダムですか?カレンダーにプロットしてください...)
  4. リモートサイトについて何か奇妙なことはありますか?
    • DNSを見てください-それがラウンドロビンの場合、リモート側の破損がある可能性があります
    • VPNのもう一方の端について話しているのですか?VPNはどうなっていますか(ログ!)
  5. ローカルサイトに奇妙な点はありますか?
    • ローカルファイアウォールを確認する
    • 「フィルタリングソフトウェア」を確認する
  6. ISPに確認して、既知の問題がないか確認します
  7. http://www.internetpulse.net/などのサイトで、ネットワーク全体の既知の問題を確認します
  8. ユーザーのマシンをチェックしてください
    (TCP設定など-通常は問題ではありませんが、場合によっては。)

1

これまでの優れた応答に加えて、以下を追加します。

  • 問題が発生した日付/時刻を特定します。これは当たり前のように思えるかもしれませんが、これが文書化されておらず、後で誤った仮定がなされたという問題が多すぎます。これは、「変更されたもの」のステップとよく相関しています。

  • 問題は再現可能ですか、それとも断続的ですか?再現可能な症状は、断続的な症状よりもはるかに簡単かつ迅速に解決できるため、これは重要です。再現可能な場合は、手順が文書化されていることを確認してください。

  • 症状を特定します。根本原因の兆候である「症状」と実際の問題/根本原因を区別することに注意してください。

    1. 症状を再現できる他のアクティビティはありますか?
    2. 他にどんな症状がありますか?
    3. 問題が断続的である場合、それを引き起こす活動を特定できますか?
    4. どのような状況で症状の発生を防ぐことができますか?この問題はネットワークアカウントを使用してログオンした場合にのみ発生しますが、ローカルにログオンした場合は問題ありませんか?通常のユーザーとしてログインしたときに問題が発生しますが、昇格した特権でログオンした場合は問題なく動作しますか?1つのシステムでのみ発生しますが、類似しているはずの別のシステムで症状が発生しませんか?
  • 問題の原因と思われる機能コンポーネントを特定します。Webアプリケーションにエラーがある場合、それはアプリケーションコード、Webサーバー、Webサーバーをホストしているオペレーティングシステム、ネットワーク、またはリモートエンドにありますか?これは現時点で最良の推測であり、リソースは考えられる原因に焦点が当てられているため、これが理論/推測であることを他の人に確実に知らせます。

  • 仮定に疑問を投げかけ、経験とデータを収集して、仮定と結論をサポートするようにしてください。xに問題がないことを誰かに告げるのはかなり悪い気持ちであり、実際にあることが後で発見されます。通常、誤ったソリューションがある場合、正しいソリューションをサポートするためのデータがあった可能性があります。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.