統計学者は、どの分布が異なる統計的検定に適しているかをどのように決定しますか？

8

例えば、ＡＮＯＶＡ検定について計算された検定統計量はＦ分布と比較され、一方、ｔ検定比較手段は検定統計量をｔ分布と比較する。

hypothesis-testing distributions

— スチュ
ソース

1

一般的な概要については、このペーパーの 3ページをご覧ください。多くの分布間の関係を表すグラフが含まれています。かなりきちんとしています。

— COOLSerdash 2013

あるレベルでは、答えは簡単です。分布は、帰無仮説のもとでの検定統計量の分布です。それを見つけることは単なる計算です。ハードの部分は、損失関数を引き出す、問題のために、適切な確率モデルを考え出すと、良いテストを作成する検定統計量を見つけています。正規分布、、およびを含む多くの分布は、実際の分布への漸近近似として実際に最も頻繁に表示されます（その中に、適切な回答の別の部分があります）。

t

$t$

χ^{2}

$\chi^2$

— whuber

12

あなたの質問に対する完全な答えは、完全な学期の数学理論の統計コースになります（本当に興味があるなら、それはあなたが取るのに良い考えでしょう）。

しかし、短い部分的な答えのセットは次のとおりです。

一般に、正規分布から始めます。これは、多くの現実世界の状況に対して妥当な近似であることがわかっており、中心極限定理（およびその他の定理）は、単純なランダムサンプル（サンプルサイズが大きいほど、法線による近似が向上します）。したがって、正規分布は、妥当な近似ではないと考える理由がない場合に考慮すべきデフォルトの分布であることがよくあります。最近のコンピューターでは、ノンパラメトリックツールや他のツールを使用する方が簡単になり、通常にそれほど依存する必要はありません（ただし、履歴/慣性などにより、通常の方法を使用し続けます）。

標準正規分布に由来する変数を二乗すると、カイ二乗分布に従います。カイ2乗から変数を加算すると、別のカイ2乗（自由度の変化）が得られるため、分散（スケーリング）はカイ2乗に従います。

また、nullがtrueで他の仮定が成り立つ場合、尤度比の関数がカイ二乗分布に漸近的に従うこともわかります。

カイ二乗（および一部のスケーリングパラメーター）の平方根で除算された標準法線はt分布に従います。そのため、一般的なt統計（帰無仮説の下）はtに従います。

2のカイ二乗（自由度およびその他の考慮事項で除算）の比率は、F分布に従います。anova F検定は、同じ分散（ヌルの下）の2つの推定値の比率に基づいており、分散はカイ2乗に従うため、比率はF（ヌルおよび仮定の下で）に従います。

賢い人々がこれらのルールを作成し、私たちの残りの人がそれらを適用できるようにしました。完全な数学/統計コースは、より多くの歴史と派生（そしておそらくより多くの選択肢）を提供します。これは、より一般的なテストと分布の簡単な概要として意図されただけです。

— グレッグ・スノー
ソース

ありがとう、これはまさに私が探していたものです。数学理論の統計コースは今のところ延期すると思います。

— 2013

3

あなたの質問に答える別の方法は、私が簡単な例で説明したい次の逐次的な考え方です：

1）関心のある問題に関連する帰無仮説は何ですか？たとえば米国では、平均収入は月額$ 6000です。

2）利用可能なデータに基づいて、帰無仮説からの逸脱をどのように測定できますか？最初の試行：平均収入。6000から離れるほど、帰無仮説の可能性は低くなり、却下する必要があります。 $T =$

3）帰無仮説が真の場合、の分布を見つけます。この「ヌル分布」は、テスト決定の基礎です。この例では、サンプルが大きい場合、中心極限定理はが平均6000と標準偏差でほぼ正規分布していることを示し。ここで、は米国の所得の真の標準偏差です。。とはサンプル標準偏差によって推定できることがわかっています。 $T$ $T$ $\sigma/\sqrt{n}$ $\sigma$ $n$ $\sigma$ $\hat \sigma$

主に、今度は身を乗り出し、この結果を使用してテストの決定を見つけることができます。ただし、統計学者は優れているので、通常は、テスト統計を変更して、可能な限り多くのデータ依存情報がないようにnull分布を維持しようとします。簡単な例では、代わりに使用できます。帰無仮説が真である場合、この変更された検定統計量は常にほぼ標準的な標準です。サンプルサイズ、仮説の平均値、標準偏差に関係なく、テストの決定は常に同じ臨界値（）に基づいています。これは有名な1標本Z検定です。

T^{』} = （ T - 6000 ） / （ \hat{σ} / \sqrt{ん} ）

$T' = (T-6000)/(\hat \sigma/\sqrt{n})$

T

$T$

T^{'}

$T'$

\pm 1.96

$\pm 1.96$

— マイケルM
ソース

-2

現実に基づく分布は3つしかありません。（1）二項式（2）多項式（3）アブラハムデモイヴルの二項式への近似。他の分布は、ダイナミックレンジが非常に限定され、現実との接触がほとんどない「派生」式です。例。統計学者はあなたのデータがポアソン分布に適合していることを教えてくれます。彼は実際にはポアソン分布にある種の「スタンドアロン」の現実があると信じています。真実は、ポアソン分布は非常に小さいスキューと非常に大きいスキューの二項式を近似することです。今や私たち全員がコンピュータを手に入れているので、近似器を呼び出す理由はありません。しかし、悲しいことに、古い習慣はひどく死にます。

— user10739
ソース

1

興味深い、示唆に富む論文ですが、最終的にはこのコンテキストでは役に立ちません。さらに、その真実は、「現実に基づく」という特異で限定された考えに基づいているようです。（制限されているという主張を正当化するために、多くの例の中で、ここで指定された3つの分布から超幾何学やベンフォードのような分布を導出するために何が必要かを検討してください。）

— whuber

複雑なプロセスの基礎となるモデルを近似する必要性をコンピューターがどのように軽減するかはわかりません。ポアソン回帰を使用していないのは、データが膨大な数のベルヌーイ試行から生成されたもので、試行の回数に比例して成功確率が減少し、コンピューターのトラブルを節約したいだけだからです。彼らは、共変量がカウント結果の平均にどのように影響するかをテストするための単純なモデルであるため、それを使用します。賢い施術者がモデルの仮定をチェックしますが、コンピューターが超能力になるまで、モデルを使用して現実を近似します。

— Macro

ライフサイエンスでは、データセットを二項分布に対してテストすることが重要です。そうすることで、プロセスに影響を与える遺伝子の数に対応する「エラーの原因」の総数を測定できます。特に、ポアソン分布はこの関係を覆い隠します。

— user10739 2013