あなたの環境がPHPである間、私はJavaについてそれをどう考えるかについてプレゼンテーションをしました:http : //www.infoq.com/presentations/maintaining-production-java-apps
コアの問題は同じです-状況をトラブルシューティングするために考えられるチョークポイントを理解する:ネットワーク、ファイルシステムアクセス、ログファイル、デッドロックなど。また、適切な質問をする方法を知るには:「システムダウン」意味:Webページが遅い、特定のエラーメッセージがある、タイムアウトがある」など
さらに、トラブルシューティングを簡単にするツールがいくつかあります。ネットワークトラブルシューティング用のWiresharkは、絶対に最適であり、学ぶ価値があります。その他は、使用するO / Sに依存します。Windowsの場合、SysInternal(現在はMicrosoftの一部)の製品はどれも素晴らしいです。Unix / Linuxの場合は、truss / straceをご覧ください。
運用へのアクセス時に、運用グループはそれらのツール/テクニックの使用方法を知っているか、それらのビジネスケースを(あなたと一緒に)使用して学習する必要があります。その後、問題が発生したときに実行するトラブルシューティングプロトコルの特定のセットが必要になるため、オフラインで分析を行うことができます。