サーバーの応答時間をモデル化するために最も一般的に使用される分布は何ですか？

16

サーブレットベースのアプリケーションがあり、そのサーブレットへの各リクエストを完了するのにかかる時間を測定しています。平均値や最大値などの単純な統計をすでに計算しています。ただし、さらに洗練された分析を作成したいので、これらの応答時間を適切にモデル化する必要があると思います。

確かに、応答時間はよく知られた分布に従うので、その分布が正しいモデルであると信じるのには十分な理由があります。しかし、この分布がどうあるべきかはわかりません。

対数正規とガンマが思い浮かび、実際の応答時間データのいずれかの種類を適合させることができます。応答時間はどの分布に従うべきかについて誰かが考えていますか？

distributions web

— ショーン・オーウェン
ソース

16

対数正規分布は、私は時間をかけて、すべてのユーザベース全体でサーバーの応答時間の待ち時間を記述で最良を見つけるものです。

適切な名前が付けられたサイトlognormal.comでいくつかの例を見るかもしれません。私は、幸せなユーザーであることを除いて、このサイトに所属していません。配布は次のようになります。応答（Webページの読み込みなど）時間と応答数：

対数正規分布

このチャートでは、ロード時間（X軸）スケールが線形であることに注意してください。x軸を対数目盛に切り替えると、ピークの右側で分布の形状がより正常（ベル形）に見えます。

— アリエルフ
ソース

私の意見では、このPDFは本当にフレシェのように見えます。

— usεr11852が復活モニック言う

4

グラフの例。詳細については、記事を参照してください。

私の研究では、最良のモデルはいくつかのことによって決定されることが示されています。1）体、尾、またはその両方に関心がありますか？「両方」ではない場合、フィルタリングされたデータセットのモデリングがより便利です。2）非常にシンプルなものが必要ですか？すなわち、いくつのパラメーター？

1に対する答えが「両方」で、2が「単純」だった場合、パレートが最もうまくいくようです。それ以外の場合、1が "body"で、2が "simple"だった場合-フィルターされたアーランモデルを選択します。1が「両方」で、2が「正確」だった場合、おそらくログドメインのデータにガウス混合モデルが必要です。これは対数正規フィットです。

私は最近これを調査してきましたが、このトピックが公共のインターネットで十分にカバーされているとは思わなかったので、このトピックに関する私の調査の詳細をブログに投稿しました。

— アンドリュー・チャーネスキ
ソース

1

チャートをありがとう。あなたが持っている（大まかに）トライモーダル分布に基づいて、これは単純な（単一サーバー）設定ではないと思います。遅いミドルウェアまたはバックエンドがあるようです。これらにより、ユーザー向けサーバーが潜在的にキャッシュされたバックエンドサブシステムが応答するのを待つと、全体的な応答が遅くなります。また、X軸とY軸が何を表しているのか明確ではありません。ロード時間（元はX軸）とカウント（元はY軸）を逆にしましたか？

— アリエル

ご意見ありがとうございます！ソースデータセットはWebサービスリクエストよりもpingに似ていましたが、トライモーダル分布は主に次の2つの原因によるものと推測します。1）主なバイモーダルの非対称性は2つのネットワークパスによるもの、2）ロングテール3番目のものコンポーネントはtcpエラー回復シナリオによるものです。それは単なる推測です...私の主な焦点は、プロセスと理論ではなく、さまざまなモデルの経験的有用性にありました。私はあなたが反転軸について何を尋ねているのか完全にはわかりませんが...プロットの例はありますか？

— アンドリューチャーネスキ

また、ずさんなグラフィックに関する謝罪。x軸はマイクロ秒で、y軸は確率密度です。（ええ、私は知っています...ごめんなさい...再現可能な科学についてはノートをご覧ください。）

— アンドリューチャーネスキ