仮説統計検定の導出方法に関する一般的なガイドラインは？

7

一般に、仮説検定のプロセスは4つのステップに分けることができます。

仮説の観点から実際的な問題を定式化します。
統計を計算する $T$ 、純粋にデータの関数。すべての優れたテスト統計には、2つの特性があります。（a）次の場合に動作が異なる傾向があります。 $H_0$ いつから本当ですか $H_1$ 本当です; および（b）はその確率分布を仮定して計算可能でなければなりません $H_0$ 本当です。
重要な地域を選択してください。の価値の種類を決定できなければなりません $T$ 最も強く指します $H_1$ よりも本当である $H_0$ 本当であること。
クリティカル領域のサイズを決定します。これには、誤った結論に至るリスクをどれだけ大きくするかを指定することが含まれます。テストの有意水準またはサイズを定義します。 $\alpha$ 、私たちが拒否することで準備するリスクとして $H_0$ それが実際に真実であるとき。

これは最も創造的なステップのようです。実際に特定のテストを他のテストと区別するのは、統計の選択です。 $T$ 。したがって、私の質問は次のとおりです。統計的仮説検定の著者はどのようにして彼らの統計を思いついたのですか？

特定の問題を考えると、理想的な（これが客観的な理由で定義できる場合）統計がどうあるべきかは常に明白ですか？上記のステップ2にリストされている2つの要件は2つあり、同じ仮説をテストするためにさまざまな統計を考案することができます。たとえば、中央値やその他の統計に基づくt検定の別の代替検定ではなかったでしょうか？

hypothesis-testing

— rmagno
ソース

4つのステップはどこから来るのですか？何か引用していますか？

— Glen_b-2016

通常、ステップ1と2は（少なくとも暗黙的に）組み合わされていると思います。つまり、概念的には2つのデータセットがあると想像できます。1つは仮説を立てる前に収集され、もう1つは仮説をテストするために収集されます。（最初は暗黙的である可能性があります。たとえば、既存の文献/先行研究から。）次に、探索的データ分析を行い、予備的な仮説と一致するように見えるいくつかの統計を見つけます（たとえば、「これらのサブグループは、異なる正規母集団からのものであるようです）。。これはその後正式化されます

— GeoMatt22

7

統計的仮説検定の著者はどのようにして彼らの統計を思いついたのですか？

状況に応じて、テスト統計を識別する方法は多数あります。いくつかのもっともらしい仮定の下で、ピックアップすることが重要だと思われる代替案を特定し、それらに対して何らかの力を得ようとすることが重要です。

たとえば、母平均に関連する仮説がある場合（実際、それを単純にして、1標本検定を考えてみましょう）、標本平均に基づく統計は、ヌルと代替では異なる動作をします。ただし（たとえば）、ラプラス/二重指数関数ファミリーのシフト代替法を見ている場合（ $\text{DExp}(\mu,\tau)$ ）、サンプルの中央値に基づくものは、サンプルの平均に基づくものよりも、平均のシフトの検定に適しています。

特定の分布族に基づく特定のパラメトリックモデルがある場合、大規模なサンプルには魅力的なプロパティが多数あるため、少なくとも尤度比検定を検討するのが一般的です。

最初からテストを設計しようとしている多くの状況では、テスト統計は極めて重要な量に基づいています。1サンプルのt検定（およびこれまでに見た他の多くの検定）の検定統計量は、極めて重要な量です。

特定の問題を考えると、理想的な（これが客観的な根拠で定義できる場合）統計がどうあるべきかは常に明白ですか？

どういたしまして。たとえば、代替のミニバスに対する一般的な正規性の検定を考えてみましょう。正規性からの逸脱を測定するには多くの方法があり（そのようなテストの数十が提案されています）、一般的なサンプルサイズでは、どの方法もすべての選択肢に対して最も強力ではありません。

そのような状況のテストを設計しようとするとき、特定の創造性が、あなたが最も興味を持っている種類の代替案に対して優れた力を持つ選択肢を思い付くために要求されます。

上記のステップ2で挙げた2つの要件は広すぎるようで、同じ仮説をテストするために多くの異なる統計を考案することができます。

確かに。あなたには、いくつかのパラメトリック仮定を（データはいくつかの分布族から引き出されていると仮定して、あなたの仮説はそれの1つの以上のパラメータに関係します）を作る場合は、そこにあります（具体的には、一様に最も強力なすべてのこのような状況のための最高の可能性テストにテスト）、しかしそれでもあなたのパラメトリック仮定が大まかな推測のようなものである場合でも、その仮定に対するいくつかのロバスト性への欲求は物事をかなり変えるかもしれません。

たとえば（ここでも、ロケーションシフトの1つのサンプルテストを簡単にするために）、通常の母集団からサンプリングしている場合は、t検定が最適です。しかし、私はそれが正確に正常ではないかもしれないと思います、そしてそれに加えて、適度に重いテールの他のプロセスによる少量の汚染があり、次により堅牢なものがあるかもしれません（おそらく、署名のようなランクベースの代替ランクテスト）は、このようなさまざまな状況でパフォーマンスが向上する傾向があります。

— Glen_b-モニカの復活
ソース

3

有用な検定統計量は、分布が対象のパラメーターに依存し、統計モデルの他の部分に依存しないものです。このようにして、帰無仮説（つまり、対象のパラメーターが帰無仮説で指定された値を持つ場合）での分布を完全に指定できます。理想的な検定統計量は、対象のパラメーターに強く依存する分布を持つという特性に加えて、結果として得られる検定が優れたパワーを持つようにします。

スチューデントのt検定を考えます。これは、有意差検定として開発されました（「仮説の検定」と「有意性検定」の違いは何ですか？を参照）。ゴセットが直面した困難は、正常な母集団からの小さなサンプルの平均の分布が、関心のあるパラメーターに依存することでした。 $\mu$ だけでなく、「迷惑パラメータ」、つまり母集団の標準偏差、 $\sigma$ 。サンプル条件が小さいということは、サンプルから推定された標準偏差が $s$ 、の適切な推定ではありません $\sigma$ 。問題を解決するために、ゴセットは検定統計量を考案しました $t=\sqrt{n}\times \bar{x}/s$ これはデータのみに依存し、特定のサンプルサイズの分布が定義されています。 $n$ 。重要なことに、その分布は完全に影響を受けません $\sigma$ 。（実際、私が正しく覚えていれば、この形式の検定統計量はフィッシャーによる修正でした。）

今日、ゴセットの解の天才を見るのは必ずしも簡単ではありません。特に、彼のt統計は、既知の分散を持つ正規分布のz統計とほとんど同じに見えるためです（代わりに $\sigma$ ために $s$ ）。難しいのは、検定統計量の分布の性質を決定することでした。ゴセットの分布が正しいことの証明は、フィッシャーによる後の論文が出るまで来ませんでした。

多くの場合、統計的検定は、許容可能な仮定の下で既知の分布に近似することが証明できる分布をとる検定統計量を見つけることによって考案されます。たとえば、多くのテストはカイ二乗分布の近似に基づいています。

— マイケル・ルー
ソース