これは私が知っている唯一のRであるため、Rを使用したシミュレーションに関するあなたのポイントにお答えします。Rには、シミュレーションできる組み込みの分布がたくさんあります。命名のロジックはdis、名前と呼ばれる分布をシミュレートすることrdisです。
以下は、私が最も頻繁に使用するものです
# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper
Rを使用した近似分布でいくつかの補数を見つけることができます。
追加:ディストリビューションとそれらが属するパッケージの包括的なリストへのリンクを提供してくれた@jthetzelに感謝します。
しかし、待ってください、それだけではありません。OK、@ whuberのコメントに続いて、他の点について説明します。ポイント1に関して、私は適合度のアプローチに決して行きません。代わりに、私は常に信号の発生源について考えます。たとえば、現象の原因は何かを生成するものに自然な対称性があるかなどです。それをカバーするには、いくつかの本の章が必要なので、2つの例を挙げます。
データがカウントで上限がない場合は、ポアソンを試します。ポアソン変数は、非常に一般的なフレームワークである、時間枠内の連続する独立のカウントとして解釈できます。私は分布を適合させ、分散がよく記述されているかどうかを(しばしば視覚的に)確認します。多くの場合、サンプルの分散ははるかに高く、その場合は負の二項式を使用します。負の二項式は、ポアソンとさまざまな変数の混合として解釈できます。これはさらに一般的であるため、これは通常、サンプルに非常によく適合します。
データが平均を中心に対称的である、つまり偏差が正または負である可能性が等しいと考える場合、ガウス分布を当てはめようとします。次に、(再び視覚的に)外れ値が多いかどうか、つまり、データポイントが平均から非常に離れているかどうかを確認します。ある場合は、代わりにスチューデントのtを使用します。スチューデントのt分布は、さまざまな分散を持つガウスの混合として解釈できますが、これも非常に一般的です。
これらの例では、視覚的に言うと、QQプロットを使用することを意味します
ポイント3は、いくつかの本の章にも値します。別のディストリビューションの代わりにディストリビューションを使用した場合の影響は無限です。したがって、すべてを説明するのではなく、上記の2つの例を続けます。
私の初期の頃は、負の二項式が意味のある解釈を持つことができることを知りませんでしたので、常にポアソンを使用しました(私はパラメーターを人間の言葉で解釈できるようにするためです)。多くの場合、ポアソンを使用すると、平均をうまく適合させますが、分散を過小評価します。これは、サンプルの極端な値を再現することができず、実際にはそうではないが、そのような値を外れ値(他のポイントと同じ分布を持たないデータポイント)と見なすことを意味します。
再び、私は初期の頃、スチューデントにも意味のある解釈があることを知りませんでした。同様のことが起こりました。私は平均と分散をうまく当てはめますが、ほとんどすべてのデータポイントは平均の3標準偏差内にあると想定されているため、依然として異常値をキャプチャしません。同じことが起こりました、私はいくつかのポイントが「異常」であると結論しましたが、実際にはそうではありませんでした。