回答:
現在リクエストトラッカー(http://www.bestpractical.com/rt)を使用しています。
すべてのメンテナンスイベントは、「システム」キュー内の関連するチケットを取得します。発生した問題、いつ誰が何をしたかなどのメモと必要な承認がすべてチケットに入力されます。
現時点では、定期的なタスク(四半期ごとのパッチ適用など)は手動で作成されていますが、十分に自動化できます(cronジョブ+電子メール)。
管理グループには2人しかいないため、誰がどの作業を行っているかを調整するのは比較的簡単ですが、計画を拡大する場合、メンテナンスイベントのマスターチケットを作成し、責任者に割り当てられた子チケットを使用して作業を委任することになります。 。
毎日のもの(ログチェックなど)は別の問題です:私はそのすべてを自動化されたプロセスに展開しています:
適切に実装された自動化は、タスクとチェックリストの必要性を完全に排除します。仕事をはるかに効果的かつ効率的に実行できるコンピュータがあるのに、なぜ手動で確認したいのですか?
定期的なチェックが必要なものは、監視システムによってチェックされます。日常的なタスクは、手動で実行する必要があるいくつかのタスクについて、実用的でリマインダーが送信されるたびに自動化されます。ドキュメンテーションは別の問題ですが、適切に行われると、ほとんどの場合、コンピューターは独自のドキュメンテーションを作成できます。
より良い手動の方法を探すのをやめ、仕事をするためのより良い自動化された方法を探し始めます。コンピュータは私たちのために働くためのものであり、私たちがそれらのために働くためのものではありません。
プロジェクト作業の場合、プロジェクト管理アプリ(詳細な作業を文書化して特定の人のためにスケジュールする機能と統合された電子メールとカレンダー)から駆動されます。
メンテナンス、アップグレード、修正などのために、変更管理プロセスと多かれ少なかれ統合する発券システムがあり、リクエストとスケジューリングを処理します。
完全に内部主導の作業および長いサイクル(四半期ごと、年ごとなど)での作業の場合:
ことを行うためのリマインダーはカレンダーに入れられます。一般的なスケジュールがどのようなものであるかについて、非公式/準公式のドキュメント(「wiki」)が存在します。
タスクを実行する方法に関する「ハウツー」と手順のドキュメントがいくらかあり、チーム全体がアクセスできますが、人々は独自の管理者「ブラックブック」とノートとレシピを含むログを持っています。
監視システムは次のことを支援します。
毎月のメンテナンスの各ラウンドをチェックボックス付きのWord Docファイルに文書化します。毎月、レポートをNASのフォルダーに保存します。フォルダの最小ファイル経過時間を監視します。ファイルの最短保存期間が40日を超えると、アラームが発生します。
定期的なメンテナンスの一環として、選択したサーバーとアプライアンスを月に1度再起動します。監視ソフトウェアでは「システム稼働時間」センサー(SNMP / WMI)を使用しており、稼働時間が40日を超えるとアラームが発生します。
バックアップについては、NAS上の各サーバーのバックアップフォルダー内の最小ファイル経過時間を監視します。ファイルの最短保存期間が10日を超えると、アラームが発生します。
Checkpanel(https://checkpanel.com)を使用して、定期的なメンテナンスタスクを管理しています。再利用可能なチェックリストと、各チェックの結果を記録する簡単なインターフェースを提供します。
アイテムをチェックした後は、「完了」するだけでなく、引き続きチェックすることができます。各チェックは記録されるため、オプションの詳細(チェックに失敗した場合のエラーメッセージなど)を含む、アイテムの過去のすべてのチェックの履歴を簡単に確認できます。
各アイテムに定期的なアイテムを設定して、少なくとも週に1回、2日ごとなどにチェックするようにできます。すべての期限付きアイテムの統合ビューがあります。必要に応じて、すべての期限付きアイテムを毎日メールで受け取ることもできます。
ありますサーバーのメンテナンスチェックリストテンプレートあなたがあなた自身のチェックリストの基礎として使用することができます。その他のテンプレートには、Webアプリケーション、WordPressなどのチェックリストが含まれています。
開示:私はチェックパネルの創設者です。