分布のシミュレーション

私はキャパシティプランニングの割り当てに取り組んでおり、いくつかの本を読んだことがあります。これは特にディストリビューションについてです。私はRを使用します。

データの分布を特定するために推奨されるアプローチは何ですか？それを識別する統計的方法はありますか？

この図があります。

確率論的アプローチ：シナリオ分析、意思決定ツリー、シミュレーション

Rを使用して利用できるシミュレーションアプローチは何ですか？ここでは、指数のような特定の分布のデータを生成したいと思います。Javaと統合したい場合、r-javaは適切なアプローチですか？
特定の分布のデータをパイプ処理するときに、影響（CPU使用率など）がどの分布になるかを予測する方法はありますか？データの特定の分布を送信することの異なる効果は何ですか？

初心者向けの質問とお考えください。これらのタイプのシミュレーションを扱う本や資料はありますか？

ノート

この図は、論文http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdfの末尾からのものです。

私が出会った適合度のテクニック

適合度の評価

カイ二乗
コルモゴロフ=スミルノフ、
アンダーソン・ダーリング統計密度、cdf、PPおよびQQプロット

私の分布が正規または指数関数的であることがわかった場合、どのような解釈または次のステップが必要なのかわかりません。それにより、何ができるようになりますか？予測？この質問が明確であることを願っています。

指数関数的な遅延は、Neil Guntherによる私の容量計画の本のとおり、キューの変動を引き起こします。だから私はその一点を知っています。

distributions simulation

— モハン・ラダクリシュナン
ソース

ダイアグラムが重要だと思う場合は、画像の品質を向上させる必要があります...

— ocram

いい質問をするのに気をつけてくれてありがとう。私の意見では、あなたのポイント2.（おそらく3だと思います）は説明が必要です。

— gui11aume 2012年

私の最後の質問はここにあると思います。データの分布を特定したとしましょう。将来の分布はこの確率に従うと私は予測していますか？ここにデータ分析の部分がありません。私は、箱ひげ図が私が理解している四分位数を簡単に示していることを知っています。ディストリビューションのユーティリティは利用できません。予測のために調査する必要があるこの分布の特性がありますように。

— Mohan Radhakrishnan 2012年

@ocram品質が悪い場合は、ブラウザでページを拡大します。詳細がそこにあります。ところで、これらの画像は、Crystal Ballのドキュメントの一部のものである必要があります。

— whuber

@whuber：確かに、私も試していません！コメントしてすみません。

— ocram

これは私が知っている唯一のRであるため、Rを使用したシミュレーションに関するあなたのポイントにお答えします。Rには、シミュレーションできる組み込みの分布がたくさんあります。命名のロジックはdis、名前と呼ばれる分布をシミュレートすることrdisです。

以下は、私が最も頻繁に使用するものです

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

Rを使用した近似分布でいくつかの補数を見つけることができます。

追加：ディストリビューションとそれらが属するパッケージの包括的なリストへのリンクを提供してくれた@jthetzelに感謝します。

しかし、待ってください、それだけではありません。OK、@ whuberのコメントに続いて、他の点について説明します。ポイント1に関して、私は適合度のアプローチに決して行きません。代わりに、私は常に信号の発生源について考えます。たとえば、現象の原因は何かを生成するものに自然な対称性があるかなどです。それをカバーするには、いくつかの本の章が必要なので、2つの例を挙げます。

データがカウントで上限がない場合は、ポアソンを試します。ポアソン変数は、非常に一般的なフレームワークである、時間枠内の連続する独立のカウントとして解釈できます。私は分布を適合させ、分散がよく記述されているかどうかを（しばしば視覚的に）確認します。多くの場合、サンプルの分散ははるかに高く、その場合は負の二項式を使用します。負の二項式は、ポアソンとさまざまな変数の混合として解釈できます。これはさらに一般的であるため、これは通常、サンプルに非常によく適合します。
データが平均を中心に対称的である、つまり偏差が正または負である可能性が等しいと考える場合、ガウス分布を当てはめようとします。次に、（再び視覚的に）外れ値が多いかどうか、つまり、データポイントが平均から非常に離れているかどうかを確認します。ある場合は、代わりにスチューデントのtを使用します。スチューデントのt分布は、さまざまな分散を持つガウスの混合として解釈できますが、これも非常に一般的です。

これらの例では、視覚的に言うと、QQプロットを使用することを意味します

ポイント3は、いくつかの本の章にも値します。別のディストリビューションの代わりにディストリビューションを使用した場合の影響は無限です。したがって、すべてを説明するのではなく、上記の2つの例を続けます。

私の初期の頃は、負の二項式が意味のある解釈を持つことができることを知りませんでしたので、常にポアソンを使用しました（私はパラメーターを人間の言葉で解釈できるようにするためです）。多くの場合、ポアソンを使用すると、平均をうまく適合させますが、分散を過小評価します。これは、サンプルの極端な値を再現することができず、実際にはそうではないが、そのような値を外れ値（他のポイントと同じ分布を持たないデータポイント）と見なすことを意味します。
再び、私は初期の頃、スチューデントにも意味のある解釈があることを知りませんでした。同様のことが起こりました。私は平均と分散をうまく当てはめますが、ほとんどすべてのデータポイントは平均の3標準偏差内にあると想定されているため、依然として異常値をキャプチャしません。同じことが起こりました、私はいくつかのポイントが「異常」であると結論しましたが、実際にはそうではありませんでした。

— gui11aume
ソース

gui11aumeの答えに追加する注：「D、P、Q、R」構文は、例えばR.における分布関連する関数があり、dnorm、pnorm、qnorm、およびrnorm密度、累積分布関数（CDF）は、CDFの逆、およびそれぞれ正規分布のランダム変量ジェネレーター関数。利用可能な分布の包括的なリストについては、確率分布タスクビューを参照してください。

— jthetzel 2012年

はい、どうもありがとう（+1）。そんなリストをずっと探していました。見やすくするために答えに入れました。

— gui11aume 2012年

私はそれらの分布の3分の1が何であるかさえあなたに言うことができませんでした。学ぶべきことはたくさんあります...。+1ですが、残りの質問は忘れないでください。これは基本的なものです（ただし、少し広すぎるかもしれません）。分布の選択はシミュレーションにどのような影響を与えますか？これらの選択を行うにはどうすればよいですか？

— whuber

@whuberキューの変動に対する遅延の指数分布の影響を追加しました。参照してください。CPまたはキューイングに関する本。

— Mohan Radhakrishnan 2012年

Rでのフィッティング分布を読み、QQプロットも1回使用しました。最尤推定は、サンプルデータの尤度関数として知られている数式で始まります。大まかに言えば、データセットの尤度は、選択された確率モデルが与えられた特定のデータセットを取得する確率です。これは、分布が再び発生する可能性があることを計算する方法があることを意味しますか？これを証明するには何回の測定が必要ですか？

— Mohan Radhakrishnan 2012年