タグ付けされた質問 「monitoring」

1
複数のクラウド(AmazonおよびGoogle)を監視するための集中ダッシュボードを作成する方法は?
アプリケーションに加えてAmazon Web ServicesとGoogle Cloud Platformが提供するクラウドインフラストラクチャを監視するための集中ダッシュボードとして使用できる単一の製品またはサービスを探しています。 Amazon Web Servicesのすべてのサービスをサポートするsensuのようないくつかのオプションを探していますが、Google Cloud Platformを監視するプラグインが見つかりませんでした。 これを作成できる他のサービスや製品はありますか?私の好みはオープンソースですか? 注:誰もがGCPとAWSにアクセスでき、誰かが何かを起動した場合、監視用に1つのダッシュボードを簡単に作成できます。

3
Prometheusデータベースの欠落データをトラブルシューティングするにはどうすればよいですか?
実行中のインフラストラクチャに関する詳細なメトリックを収集するために、Prometheusを監視ワークフローに徐々に統合しています。 この間、プロメテウスがデータをプルするはずのエクスポーターが応答しなくなるという奇妙な問題に遭遇することがよくあります。ネットワークの設定ミスが原因である可能性があります-アクセスできなくなっているか、エクスポーターがクラッシュしたためです。 理由が何であれ、Prometheusに表示されると予想されるデータの一部が欠落しており、特定の期間にわたってシリーズに何もないことがわかりました。1つのエクスポーターが失敗(タイミングアウト?)すると、他のエクスポーターが失敗することもあります(最初のタイムアウトがジョブ全体をトップレベルタイムアウトより上に押し上げましたか?ただ推測しています)。 上記の視覚化で示されているように、私が見るのはシリーズのギャップです。これが発生した場合、ログには何もありません。プロメテウスの自己計量もかなり不毛のようです。プロメテウスがやっていることを手作業で再現し、どこで壊れているのかを手作業で再現しようとする必要がありました。これは面倒です。もっと良い方法があるはずです!リアルタイムアラートは必要ありませんが、少なくとも、エクスポーターがデータを配信できなかったことを確認できるようにしたいと考えています。ブール値の「データを確認してください」というフラグでさえも始まりです。 輸出業者からデータを取得できなかったプロメテウスに関する意味のある情報を取得するにはどうすればよいですか?Prometheusデータ収集の手動シミュレーションを実行せずにギャップが存在する理由を理解するにはどうすればよいですか?この点に関して、おそらくプロメテウスを超えてデータ収集全般の監視に拡張された場合でも、賢明な慣行は何ですか?

2
Jenkinsビルドエグゼキュータの空きメモリを確認するにはどうすればよいですか?
JenkinsでBuild Executor Statusをクリックすると、空きディスク領域関連の統計(URI:)しか表示されません/computer。Jenkinsで空きシステムメモリ(RAM)を監視するにはどうすればよいですか? 実行者が多すぎる場合(スワップスペースが構成されていても、以下のものではない)、Jenkinsがフリーズまたはクラッシュすることが多かったためです。

1
クラウドの用語「ファイアホース」とは正確には何ですか?
Loggregator System Cloud Foundryのドキュメントの概要からFirehoseの定義を見つけました。 Firehoseは、Cloud FoundryデプロイメントからのすべてのイベントデータをストリーミングするWebSocketエンドポイントです。データストリームには、ログ、すべてのアプリケーションからのHTTPイベントとコンテナーメトリック、およびすべてのCloud Foundryシステムコンポーネントからのメトリックが含まれます。Cloud Controllerなどのシステムコンポーネントからのログはファイアホースに含まれず、通常はrsyslog構成を介してアクセスされます。 Firehoseからのデータには、アプリケーションログの顧客情報などの機密情報が含まれている可能性があるため、適切な権限を持つユーザーのみがFirehoseにアクセスできます。 この用語のルーツはどこにあり、なぜそのように呼ばれているのですか?コンセプトは他のクラウド製品やプラットフォームでも同じですか? この用語を母国語に翻訳すると面白いです。

4
複数のサーバーでプログラムの進行状況を監視する
tmuxセッション内でデータ分析タスクを実行しているPythonプログラムを実行している3つのサーバーがあります。現在使用している方法は、tmuxセッションに接続し、コマンドラインで出力を監視するそれぞれにSSHで接続することです。 この方法は面倒なので、探しているのは、複数のサーバーのプログラムの進行状況(CLIでの出力)の監視を同時に自動化するソリューションです。Web UIソリューションが理想的ですが、CLIも完全に適しています。 読んでくれてありがとう。

2
Dockerコンテナー内で実行されているNode Microサービスをどのように監視しますか?
「Docker化されたアプリケーションはどの程度健全ですか?」に関するこの記事 は監視の問題を説明していますが、Dockerコンテナー内のマイクロサービスを実際に監視する方法の良い例は提供していません。 現在、マイクロサービスを監視するためにPM2モニターを使用していますが、それらをDockerコンテナーに配置すると、それぞれが独自のDockerコンテナーで実行されるすべてのさまざまなマイクロサービスの1つの画面内でこのデータにアクセスできなくなります。 Dockerswarmモニタリングはコンテナーの状態を通知しますが、コンテナー内で実行されているマイクロサービスは通知しません。 この問題を解決する確かな実証済みの方法は何ですか?

2
フロントエンドでのみ実行されるサイト監視ブラウザ専用ツール?
Nagiosのようなインフラストラクチャ監視ツールやはるかに「低レベル」のカールは、DevOpsコミュニティでよく知られています。 しかし、フロントエンドで同様の方法でいくつかのAPIを追跡したいだけの場合、この機能をサポートするために、多かれ少なかれ成熟した人気のあるツールまたはコンポーネントは何ですか?つまり、Nagiosに似ていますが、ブラウザ内で完全に実行されます(サーバーからJSライブラリとともに静的構成ファイルをロードしても問題ありません)。

1
Sensu TCP接続の問題
仮想マシン上で実行中の新しいsensu / uchiwaスタックがあります。これは「スタンドアロン」インストールです。redis、rabbitmq、sensu-server、sensu-api、sensu-client、uchiwaはすべて同じマシンにインストールされます。client.jsonがサブスクライブする単一のチェックがあります。 要するに、何かが間違っているように見えます。uchiwaダッシュボードにログインすると、「Datacenter sensu-81が返されました:500 INTERNAL SERVER ERROR」という警告メッセージが表示されます。 sensu-client、sensu-apiおよびsensu-serverログは、これらのメッセージのみこれらのメッセージで満たされています。 ==> /var/log/sensu/sensu-api.log <== {"timestamp":"2017-05-11T21:00:34.758243+0000","level":"warn","message":"transport connection error","reason":"tcp connection lost"} {"timestamp":"2017-05-11T21:00:34.758784+0000","level":"warn","message":"transport connection error","reason":"possible authentication failure. wrong credentials?","user":"sensu"} ==> /var/log/sensu/sensu-client.log <== {"timestamp":"2017-05-11T21:00:35.973060+0000","level":"warn","message":"transport connection error","reason":"tcp connection lost"} {"timestamp":"2017-05-11T21:00:35.974858+0000","level":"warn","message":"transport connection error","reason":"possible authentication failure. wrong credentials?","user":"sensu"} ==> /var/log/sensu/sensu-server.log <== {"timestamp":"2017-05-11T21:00:37.489540+0000","level":"warn","message":"transport connection error","reason":"tcp connection lost"} {"timestamp":"2017-05-11T21:00:37.489704+0000","level":"warn","message":"transport connection error","reason":"possible …

1
「nohup」モニタリングのベストプラクティスやツールはありますか?
nohupAWS Lambdaからboto3を介して生成されるマスター内でAnsibleプレイブックを開始するために使用します。 このプレイブックは複数のワーカーを作成し、いくつかのタスクを実行させて終了させます。 そこで、信頼性の高い監視システムを設計/構築したいと思います。とりあえず、マスター内nohupのtasks.logファイルにログを書き込み、Ansibleの再生が完了したら、それをストア(現時点ではS3)にプッシュしています。 しかし、私は同じことをするためのはるかにエレガントな(そして/または)より良い方法があるかどうか知りたいですか?また、その過程で私を助ける良いツールがあるかどうか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.