回答:
モニタリング+アラート -これは優れたセーフティネットです。開発者がコードを更新しても混乱しないように単体テストを作成するのと同様に、何かを台無しにした場合に備えて追加のセーフティネットとして監視することに依存しています[サーバーの切断、ファイアウォールでの運用トラフィックの拒否など] 。それは心の安らぎを与えます-物事が壊れた場合、顧客が電話する前に私は知っています。
私にとっては、認証が集中化されています。
私は40台ほどのSlackwareマシンを管理しており、各マシンにはローカル認証とローカルSamba認証が備わっていました。また、各アカウントのセットアップが必要なVPNソリューションに加えて、内部ジャバーサーバーと内部メールサーバーがありました。すべてに独自のアカウントがありました。MAC(移動、追加、変更)は非常識でした。
だから私はSlackwareからCentOSに切り替え、Active Directoryインフラストラクチャを作成し、同様にOpenを使用してADに対してすべてのLinuxマシンを認証しました。少しでも冗談を言うことなく、月に20時間は節約できたでしょう。
今、私はできる限りADを介して認証されたすべてのものを手に入れました。あなたがまだ悪い古い方法で物事をしているなら、集中認証を十分に勧めることはできません。
ここでの明らかな選択に同意します。自動化と中央認証。ただし、ドキュメンテーションについて言及するには、私がやらなければならないようです。
できるだけ多くの問題、ワークフロー、インストール、およびガイドを文書化することで、人々は部門に連絡することなく、いくつかの問題を解決することができました。
別の優れた時間節約は問題追跡です。
タスクに優先順位を付けて、チームメンバーに割り当て、電子メール、MSN、または単にオフィスに来るだけでリクエストを送信するすべての人を排除します。これはまた、私たちの良き友人であるマネージャーが、あなたがどれだけ効率的であるか(あなたが望むなら)を見るのに役立ちます。
それからもちろん、ケーキの上のアイシングは私の「RTFM」(ファインマニュアルを読む)マグカップになります。
ChefやPuppetのようなツールを使用したインフラストラクチャの自動化は、管理しているシステムに実装した最高のものです。監視は素晴らしいもののすべてですが、多くの場合、さまざまな部分をインフラストラクチャの残りの部分とうまく連携させるには多くの作業が必要です。ChefとPuppetは両方ともインフラストラクチャ全体の自動化に優れており、以前は手作業で作成されていた大量の接着剤を提供します。特に、どのサーバーがどのサービスを提供するかをつなぎ合わせます。
Chefには、他のノードに適用されている属性とレシピをサーバーに照会する機能が組み込まれているため、本番Webサーバーまたはデータベースマスターが誰であるかを確認できるため、自動化がはるかに容易になります。Puppetもこれを実行できますが、iClassifyのような外部ノード分類ツールが必要です。
これは、NagiosやMuninなどの監視およびトレンド分析ツールに明らかな影響を与えるはずです。また、たとえば、負荷分散環境の自動構成を提供できるため、LBは特定のアプリを対象とする必要のあるすべてのWebサーバーを照会できます。
さまざまな環境で実装したもう1つの大きな時間節約は、キックスタート(redhat / centos)やpreseed(debian / ubuntu)などの自動ビルドです。これはほとんどの人にとって明らかなはずですが、まだ多くのサイトがハンドオフCDからシステムを構築しているのは驚くべきことです。自動化されたビルドがシステムにChefまたはPuppetを実行する準備を整えて、他のすべての商品を準備できればさらに便利です。
監視はもちろん素晴らしいですが、それが時間の節約になるかどうかはわかりません。私のお金のために、それは日常的なものをフィルタリングし、危険(ディスク障害、ウイルススキャナー検出)を強調表示し、分類のために他のすべてを表示する表示システムを備えた集中ログでした。
勝利のためのsyslog(およびperl)。
基本的には、ベーグルを食べながら、ネットワーク上のすべてのコンピューターのイベントログを読み取ることができました。恐ろしいものを探すための少なくとも大まかなチェック。大幅な時間の節約。
すべてのユーザーのローカル管理者権限を削除しました。(私ができる場合)
これにより、Xアプリケーションをインストールする方法(今は許可されていないため)、コンピューターにウイルス/スパイウェアがあり、コンピューターの実行速度が遅いという問題に対処する必要がなくなりました。それに関連するほとんどすべてのもの。
監査やWindowsの更新などで完全に見逃されたワークステーションに出くわすまで、これがワークステーションをどれほど安定させるかについては一度も思いつきませんでした。私はそれがWindows SP1にあったと思います。そのサイトは一度もそれに関する問題について不平を言うことは一度もなかったし、私がそれを発見したとき、私はそれが素晴らしいことを見つけた。
仮想化(VMware)
テンプレートからサーバーを展開し、単一のインターフェイスからサーバーを管理し、インフラストラクチャクライアントに組み込まれた詳細なハードウェア監視の間で、インフラストラクチャの管理方法が大きく変わりました。
そして、それが私たちの「ハードウェア」の考え方に与えた影響は、実際にゲームチェンジャーになりました。クラスターを仮想的に展開できるため、クラスターは「高価すぎる」ことはありません。Citrixサーバーがさらに必要な場合は、クローンを作成します。物理的なハードウェアファームが適切なリソースを提供し続ける限り(そしてそれらのサーバーは今や本当にコモディティです)、すべてがモチモチです。
debian / linuxでの設定管理用のcfengine。
衛星局を接続するためのopenvpn
VPNを介してtighvncを実行して、サテライトステーションの2300台のWindowsクライアントに到達します。
監視およびレポート用のmuninおよびnagios
自動健全性チェックのためのサーバー上のsmartmontools(および問題が発生した場合はステータスメール)
サーバー上のraid1(ミラーリング)。1つのディスクに障害が発生した場合、サーバーはまだ実行中です。これは、私の時間管理にとって本当に重要ではありません。
TeamWork-すべてを自分で行うのは無意味です。仕事を共有し、一緒にあなたの生産性が向上します。
職場の雰囲気はあなたの仲間を尊重し、冗談を言って笑います-これは積極的で創造的な雰囲気に非常に便利です。
あなたの仕事を楽しんでください!男、仕事が大好き!これは本当に私をグーグにします(私は思う;))
監視用に別の投票を追加します。原則は非常に簡単です。ユーザーが影響を受ける前に何が起こっているのか知りたいです。システム管理は、理想的には透明な役割であるべきです。ユーザーは、あなたが何をしているかを知らず、気にする必要もありません。彼らの観点からは、単純に機能するはずです。満足して満足しているユーザーは、満足して満足している管理者と同等でなければなりません。
ITで見過ごされがちなことの1つは、コンピューターが逆ではなく、私たちのために働くために存在するということです。それにもかかわらず、私は自分の一日の大部分を手作業でサーバーとログをチェックする管理者を知っています。どうして?コンピューターはお互いを監視することができ、少しのスクリプトを作成するだけで、ログの興味深い部分だけを配信できます。実際、Fredの印刷ジョブやDNS転送が成功したなど、数百万の情報エントリを探し回る必要はありません。そうでないときだけ教えてください。
私が実装した最大の時間節約は、実稼働ワークステーションのディスクイメージングでした。それらはすべて同じで、誰もローカルに何も保存しないので、問題が発生した場合は、マシンのイメージを再作成するだけで、すべて新しい状態になります。
時間の節約は、システムがダウンしているときに最も重要です。
すべてのサポート契約情報を、標準化されたディレクトリ構造の標準化されたテキストファイルに文書化しました。中央に1つあり、複数のコピーを保持していました。
古い.ini形式の標準タグ(tag:data)が前に付いた情報の各ビット(Webポータル、電話番号、連絡先、有効期限、契約番号、電話メニューのショートカットなど)。
電話番号の検索は、トップレベルのディレクトリに移動して実行するのと同じくらい簡単でした。
grep Phone */*support.txt | more
最初のワイルドカードがベンダーおよび/または製品名に展開された場所。
Excel、Word、OpenOffice、データベースなどを使用しませんでした。単に何かがダウンしたとき、それはあなたのサポート情報を保持しているものそのものである可能性があるからです。また、これらはテキストモードのコンソール画面から簡単に表示できません。
また、すべてのハウツーも同じ方法で文書化しました。
これまでの私の最大の時間節約は、このOpenSSHキー管理に関する記事で説明されているSSHキー+ ssh-agent +キーチェーンです。
シェル、スクリプト、およびscpのパスワードはもうありません。
注:秘密鍵にはまだパスフレーズがあります。
監視についてはpQdに同意する必要があります。
まだ十分なメリットはありませんが、Puppetを使用して構成管理を実装すると、かなりの時間を節約し、ミスを大幅に減らすことができます。
AutoItと後でAutoHotkeyを見つけて、恋に落ちました。
私が最後にした仕事は、カスタム車両メーカーでした。アセンブラーは最低限のコンピューターユーザーであり、自分が行っているジョブを入力するために使用する必要があるプログラムをクラッシュさせることができました。毎日、1日に数回、3つの異なる建物にある15台以上のワークステーションに移動して、クラッシュしたプログラムを強制終了し、再起動して、データ入力画面に戻す必要がありました。最終的にVNCをインストールしたので、移動時間を短縮するためにリモートで実行できましたが、それでも頻繁にマシンをリセットすることを忘れずにいました。AutoItを見つけたとき、コンピューターを監視するようにプログラムを設定できることに気付きました。5分間入力がなければ、プログラムをリセットし、入力画面に戻るために必要なすべてを入力してクリックすることができました。
++アカウントの作成と終了処理を含む中央認証とアカウント管理。AD(2つのフォレスト)とLDAP(および最近までNDS)があり、いずれかのディレクトリにあるリソースにアクセスするさまざまなグループがあります。ディレクトリを同期させ、いずれかのディレクトリですべてのリソースを管理することに費やした時間は、スペードでそれだけの価値がありました。
次の最大の勝利は、アカウントのクリーンアップ、構成の一元化、またはあなたが何を持っているかにかかわらず、あらゆる量の自動化です。
実際に監視する時間をどれだけ節約できるかわかりませんが、それは不可欠です。環境が「手動チェック」を不可能かつ無効にするのに十分な大きさまたは複雑になるには、それほど多くはかかりません。加えて、時々寝ることは素晴らしいことです。;)
これはこれについて考える主な流れから少し外れているかもしれませんが、ハードウェアプラットフォームを標準化したときに大きな勝利を収めました。社内のすべてのOSで実行可能なサーバープラットフォームを選択し、数年前から使用しています。ハードウェアを学び、それのリモート管理を学びました。これにより、さまざまな方法で時間とエネルギーを節約できます。
同じことが、標準化され、文書化され、レビューされたOSビルドにも当てはまります。基本的なように見えるかもしれませんが、ビルドが標準ではなく、このツールまたはそのツールが存在するか、特定のサーバーの設定が正しいかどうかを確認するのに手間がかかりません。そのような混乱は、最も基本的なタスクや問題でさえもファイアドリルに変わる可能性があります。
私の同僚を委任し、信頼することを学ぶ-あなたが他の人の人生に少しの仕事を引き渡すことができるとわかったら、もっとリラックスできるようになります。それは、私が怠け者で、他のすべての人に私の仕事をしてもらうためではありません。あなたが良いバックアップを持っていることを知ることで来るのは心の安らぎです。そして、もちろん、標準ハードウェア上でよく監視され、標準化されたOS構成です。言うまでもない。
私の自動化の目標は、「サーバーfooでこのような問題が発生しました。修正されました」というメールを受け取ることです。そして、バグを開発者に送信したら、論文を読んでコーヒーを飲むことに戻ります。私たちはまだそこにいませんが、私たちが日々戦い抜いていたリアクティブなカオスから長い道のりを歩んできました。
私は最近、仕事でAntHill Proを実装しましたが、今では多くのプロジェクトのビルドとデプロイがすべて完全に自動化され追跡されています。これには、すべてのプロジェクトが使用する共有Tomcat展開Antライブラリの作成が含まれ、AHPでのこれらのプロジェクトのメンテナンスが簡素化されました。次は、サイトCDA展開用の同様のライブラリを作成します。
個人的には時間を節約できませんが、開発者と運用スタッフの時間を節約できます。私は他の人の車輪のオイル缶であることを楽しんでいます。:-)
次に、ChefとPuppetを見て、物事を自動化するインフラストラクチャの側面を支援したいと考えています。
ああ、ドキュメントは非常に役立ちます。同じ質問に20回答えるのではなく、よく書かれた文書を参照するだけで多くの時間を節約できます。