どのように*あなた*は定期的なメンテナンスを追跡して文書化しますか?


10

日常のメンテナンスを思い出させるために、サーバー障害で使用しているソフトウェアまたはシステムは何ですか?チェックリストにあるはずのさまざまな項目をどのようにチェックリストおよびログに記録しますか?内部プロセス文書はありますか?システムログを確認するためのリマインダーを毎週cronメールで送信していますか?

また、チームでシステムメンテナンスを行っていますか。その場合、誰がどのメンテナンスを行うかをどのように調整していますか。

バグ/問題追跡システムを使用してタスクを入力する場合、cronジョブで定期的なタスクを入力しますか?

回答:


5

現在リクエストトラッカー(http://www.bestpractical.com/rt)を使用しています。
すべてのメンテナンスイベントは、「システム」キュー内の関連するチケットを取得します。発生した問題、いつ誰が何をしたかなどのメモと必要な承認がすべてチケットに入力されます。

現時点では、定期的なタスク(四半期ごとのパッチ適用など)は手動で作成されていますが、十分に自動化できます(cronジョブ+電子メール)。

管理グループには2人しかいないため、誰がどの作業を行っているかを調整するのは比較的簡単ですが、計画を拡大する場合、メンテナンスイベントのマスターチケットを作成し、責任者に割り当てられた子チケットを使用して作業を委任することになります。 。


毎日のもの(ログチェックなど)は別の問題です:私はそのすべてを自動化されたプロセスに展開しています:

  • InterMapperは、サーバーの全体的なステータス(高負荷、低ディスク容量などを探すSNMPクエリ)、Webインターフェイスの機能、および問題を示す可能性のあるその他の要素を監視しています。
  • Syslog-NGはホストからログを収集し、明らかな問題をチェックする一連のスクリプトを通じてそれらをフィードします。私は時々ログに目を向けてスクリプトの健全性チェックを行っていますが、定期的にスケジュールされていません。


2

適切に実装された自動化は、タスクとチェックリストの必要性を完全に排除します。仕事をはるかに効果的かつ効率的に実行できるコンピュータがあるのに、なぜ手動で確認したいのですか?

定期的なチェックが必要なものは、監視システムによってチェックされます。日常的なタスクは、手動で実行する必要があるいくつかのタスクについて、実用的でリマインダーが送信されるたびに自動化されます。ドキュメンテーションは別の問題ですが、適切に行われると、ほとんどの場合、コンピューターは独自のドキュメンテーションを作成できます。

より良い手動の方法を探すのをやめ、仕事をするためのより良い自動化された方法を探し始めます。コンピュータは私たちのために働くためのものであり、私たちがそれらのために働くためのものではありません。


経験則:システム管理者は常に有能で怠惰である必要があります。仕事をしたくないという願望は、優れたシステム管理者が優れた自動化を実装することにつながります。
voretaq7 2010年

具体的な例を挙げましょう。Apacheのセキュリティパッチを監視し、新しいビルドを生成して、パッチがリリースされたときにテストする必要があります。日常的な部分は、新しいApacheリリースの監視です。正しいモジュールがコンパイルされていないため、(メイン)リポジトリから直接更新することはできません。また、リリースがチェックされていることを確認するために監査する必要があります。それはもっと理にかなっていますか?
Zak

また、ビルドがQAに合格するまで、ソフトウェアの最新のバッチをロールバックするだけではありません。QAの多くは自動化されていますが、すべてではありません。
Zak

そして、すべてをスクリプト化できない理由はありますか?自動化された更新をチェックし、一部が利用可能になったときにアラートを送信します。その後、スクリプトによるコンパイルとインストールが行われ、テストの準備が整います。機械に作業の大部分を行わせ、注意が必要な場合は通知します。
ジョンガーデニアス2010年

1

プロジェクト作業の場合、プロジェクト管理アプリ(詳細な作業を文書化して特定の人のためにスケジュールする機能と統合された電子メールとカレンダー)から駆動されます。

メンテナンス、アップグレード、修正などのために、変更管理プロセスと多かれ少なかれ統合する発券システムがあり、リクエストとスケジューリングを処理します。

完全に内部主導の作業および長いサイクル(四半期ごと、年ごとなど)での作業の場合:

ことを行うためのリマインダーはカレンダーに入れられます。一般的なスケジュールがどのようなものであるかについて、非公式/準公式のドキュメント(「wiki」)が存在します。

タスクを実行する方法に関する「ハウツー」と手順のドキュメントがいくらかあり、チーム全体がアクセスできますが、人々は独自の管理者「ブラックブック」とノートとレシピを含むログを持っています。


1

監視システムは次のことを支援します。

  • 毎月のメンテナンスの各ラウンドをチェックボックス付きのWord Docファイルに文書化します。毎月、レポートをNASのフォルダーに保存します。フォルダの最小ファイル経過時間を監視します。ファイルの最短保存期間が40日を超えると、アラームが発生します。

  • 定期的なメンテナンスの一環として、選択したサーバーとアプライアンスを月に1度再起動します。監視ソフトウェアでは「システム稼働時間」センサー(SNMP / WMI)を使用しており、稼働時間が40日を超えるとアラームが発生します。

  • バックアップについては、NAS上の各サーバーのバックアップフォルダー内の最小ファイル経過時間を監視します。ファイルの最短保存期間が10日を超えると、アラームが発生します。


1

Checkpanel(https://checkpanel.com)を使用して、定期的なメンテナンスタスクを管理しています。再利用可能なチェックリストと、各チェックの結果を記録する簡単なインターフェースを提供します。

アイテムをチェックした後は、「完了」するだけでなく、引き続きチェックすることができます。各チェックは記録されるため、オプションの詳細(チェックに失敗した場合のエラーメッセージなど)を含む、アイテムの過去のすべてのチェックの履歴を簡単に確認できます。

各アイテムに定期的なアイテムを設定して、少なくとも週に1回、2日ごとなどにチェックするようにできます。すべての期限付きアイテムの統合ビューがあります。必要に応じて、すべての期限付きアイテムを毎日メールで受け取ることもできます。

ありますサーバーのメンテナンスチェックリストテンプレートあなたがあなた自身のチェックリストの基礎として使用することができます。その他のテンプレートには、Webアプリケーション、WordPressなどのチェックリストが含まれています。

開示:私はチェックパネルの創設者です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.