大まかに言って(適合テストの良さだけでなく、他の多くの状況でも)、nullが真であると結論付けることはできません。これは、任意のサンプルサイズでnullと事実上区別できない代替があるためです。
以下に、2つの分布、標準正規分布(緑色の実線)、および類似外観(90%の標準正規分布、10%の標準化されたベータ(2,2)、赤い破線でマーク)を示します。
赤いものは正常ではありません。たとえば場合、差を見つける機会はほとんどないので、データが正規分布から引き出されていると断言することはできません-代わりに赤のような非正規分布からのものであるとしたらどうでしょうか?n = 100
等しいがより大きなパラメーターを持つ標準化されたベータのより小さな部分は、通常とは異なるものとして見るのがはるかに困難です。
しかし、実際のデータが単純な分布から得られることはほとんどないため、完全なオラクル(または実質的に無限のサンプルサイズ)があれば、データは単純な分布形式からのものであるという仮説を本質的に常に拒否します。
ジョージ・ボックスが有名にそれを置く、「すべてのモデルが間違っているが、一部は便利です。」
たとえば、正常性のテストを検討してください。データは実際には正常に近いものから来ているのかもしれませんが、それらは正確に正常になるでしょうか?彼らはおそらく決してありません。
その代わり、その形式のテストで期待できる最善の方法は、説明する状況です。(たとえば、「正規性テストは本質的に役に立たない」という投稿を参照してください。しかし、関連するポイントを作る他の投稿がここにいくつかあります)
これは、彼らが実際に興味を持っている質問(多くの場合、「私のデータは分布に十分近いので、それに基づいて適切な推論を行うことができますか?」適合度テストでは十分に答えられません。正規性の場合、多くの場合、適用したい推論手順(t検定、回帰など)は大きなサンプルで非常にうまく機能する傾向があります-多くの場合、元の分布がかなり明らかに非正規である場合でも、適合テストは、正規性を拒否する可能性が非常に高くなります。質問が重要ではない場合にデータが正常でないことを伝える可能性が最も高い手順を使用することは、ほとんど役に立ちません。F
上の画像をもう一度考えてください。赤い分布は非正規であり、サンプルが非常に大きい場合、そこからのサンプルに基づいて正規性のテストを拒否できますが、サンプルサイズがはるかに小さく、回帰および2つのサンプルt検定(および他の多くのテスト)それに加えて、その非正常性について少しでも心配することさえ無意味になるほどうまく動作します。
同様の考慮事項は、他の分布だけでなく、より一般的には、より一般的な仮説検定(たとえば、両側検定でも)にまで及びます。同様の質問をすることもできます - 平均が特定の値を取るかどうかを判断できない場合、そのようなテストを実行するポイントは何ですか?μ = μ0
偏差の特定の形式を指定して、等価性テストのようなものを見ることができるかもしれませんが、分布が仮説に近いが異なるために非常に多くの方法があり、異なるため、適合度のあるトリッキーです差異の形式は、分析に異なる影響を与える可能性があります。選択肢がnullを特別なケースとして含むより広いファミリである場合、同等性テストはより意味があります(たとえば、ガンマに対して指数関数的にテストします)-そして実際、「2つの片側テスト」アプローチが実行され、 「十分に近い」形式化する方法である(または、ガンマモデルが真であったとしても、実際には、それ自体が通常の適合度テストによって拒否されることは事実上確実である、
適合度テスト(そして、より一般的には仮説テスト)は、かなり限られた範囲の状況にのみ実際に適しています。人々が通常答えたい質問はそれほど正確ではありませんが、やや曖昧で答えにくいです。しかし、ジョン・テューキーが言ったように、「正しい質問に対するおおよその答えは、しばしば曖昧であり、いつでも正確にできる間違った質問。」
より曖昧な質問に答える合理的なアプローチには、利用可能なデータと合理的に整合する他の状況と比較して、検討している仮定に対する望ましい分析の感度を評価するためのシミュレーションとリサンプリング調査が含まれます。
ε