分布仮説のテスト-帰無仮説を「受け入れる」ことができない場合、それを行う意味は何ですか?


26

GOF検定、Kolmogorov-Smirnov、Anderson-Darling などのさまざまな仮説検定は、次の基本形式に従います。χ2

H0:データは指定された分布に従います。

H1:データは指定された分布に従っていません。

通常、特定のデータが特定の分布に従っているという主張を評価し、拒否した場合、データは特定のレベルでの特定の分布に適合しません。 αH0α

しかし、拒否しないとますか?私は常に「受け入れる」ことはできないと教えられてきたので、基本的にを拒否する証拠はありません。つまり、データが指定された分布に従うことを拒否するという証拠はありません。H 0 H 0H0H0H0

したがって、私の質問は、データが特定の分布に従うかどうかを結論付けることができない場合、そのようなテストを実行するポイントは何ですか?


1
「帰無仮説を受け入れられない場合、[一般に]テストのポイントは何ですか?」と答えることは非常に魅力的です。すべての場合において、統計的テストは意思決定の唯一の基礎ではありません。むしろ、決定を下し、データを使用してタイプI / IIエラーのリスク/コストを定量化します。有用なグラフィックス、QQplot、および予測統計で適合度または適合度を要約しただけであれば、「nullを受け入れる」リスクについて適切にアドバイスされます。
AdamO

@AdamO 3年前にこれを聞いたとき、私は学部の数学(統計強調)の学位を取得しました。私はMS統計プログラムの途中であり、いくつかの専門的な作業を行ったので、今はこれを理解しています。多くの学部生プログラムで統計がどのように教えられているかは本当に残念ですが、私は脱線します。
クラリネット奏者

回答:


37

大まかに言って(適合テストの良さだけでなく、他の多くの状況でも)、nullが真であると結論付けることはできません。これは、任意のサンプルサイズでnullと事実上区別できない代替があるためです。

以下に、2つの分布、標準正規分布(緑色の実線)、および類似外観(90%の標準正規分布、10%の標準化されたベータ(2,2)、赤い破線でマーク)を示します。

ここに画像の説明を入力してください

赤いものは正常ではありません。たとえば場合、差を見つける機会はほとんどないので、データが正規分布から引き出されていると断言することはできません-代わりに赤のような非正規分布からのものであるとしたらどうでしょうか?n=100

等しいがより大きなパラメーターを持つ標準化されたベータのより小さな部分は、通常とは異なるものとして見るのがはるかに困難です。

しかし、実際のデータが単純な分布から得られることはほとんどないため、完全なオラクル(または実質的に無限のサンプルサイズ)があれば、データは単純な分布形式からのものであるという仮説を本質的に常に拒否します。

ジョージ・ボックスが有名にそれを置く、「すべてのモデルが間違っているが、一部は便利です。

たとえば、正常性のテストを検討してください。データは実際には正常に近いものから来ているのかもしれませんが、それらは正確に正常になるでしょうか?彼らはおそらく決してありません。

その代わり、その形式のテストで期待できる最善の方法は、説明する状況です。(たとえば、「正規性テストは本質的に役に立たない」という投稿を参照してくださいしかし、関連するポイントを作る他の投稿がここにいくつあります)

これは、彼らが実際に興味を持っている質問(多くの場合、「私のデータは分布に十分近いので、それに基づいて適切な推論を行うことができますか?」適合度テストでは十分に答えられません。正規性の場合、多くの場合、適用したい推論手順(t検定、回帰など)は大きなサンプルで非常にうまく機能する傾向があります-多くの場合、元の分布がかなり明らかに非正規である場合でも、適合テストは、正規性を拒否する可能性が非常に高くなります。質問が重要ではない場合にデータが正常でないことを伝える可能性が最も高い手順を使用することは、ほとんど役に立ちません。F

上の画像をもう一度考えてください。赤い分布は非正規であり、サンプルが非常に大きい場合、そこからのサンプルに基づいて正規性のテストを拒否できますが、サンプルサイズがはるかに小さく、回帰および2つのサンプルt検定(および他の多くのテスト)それに加えて、その非正常性について少しでも心配することさえ無意味になるほどうまく動作します。

同様の考慮事項は、他の分布だけでなく、より一般的には、より一般的な仮説検定(たとえば、両側検定でも)にまで及びます。同様の質問をすることもできます - 平均が特定の値を取るかどうかを判断できない場合、そのようなテストを実行するポイントは何ですか?μ=μ0

偏差の特定の形式を指定して、等価性テストのようなものを見ることができるかもしれませんが、分布が仮説に近いが異なるために非常に多くの方法があり、異なるため、適合度のあるトリッキーです差異の形式は、分析に異なる影響を与える可能性があります。選択肢がnullを特別なケースとして含むより広いファミリである場合、同等性テストはより意味があります(たとえば、ガンマに対して指数関数的にテストします)-そして実際、「2つの片側テスト」アプローチが実行され、 「十分に近い」形式化する方法である(または、ガンマモデルが真であったとしても、実際には、それ自体が通常の適合度テストによって拒否されることは事実上確実である、

適合度テスト(そして、より一般的には仮説テスト)は、かなり限られた範囲の状況にのみ実際に適しています。人々が通常答えたい質問はそれほど正確ではありませんが、やや曖昧で答えにくいです。しかし、ジョン・テューキーが言ったように、「正しい質問に対するおおよその答えは、しばしば曖昧であり、いつでも正確にできる間違った質問。

より曖昧な質問に答える合理的なアプローチには、利用可能なデータと合理的に整合する他の状況と比較して、検討している仮定に対する望ましい分析の感度を評価するためのシミュレーションとリサンプリング調査が含まれます。

ε


グレン、これは素晴らしい答えです。「より曖昧な質問に答える合理的なアプローチ」に関するリソースはもっとありますか?「私の目的のために私のデータはディストリビューションXに十分近いですか?」コンテキストで。
スタンピージョーピート14

2
@StumpyJoePeteここでは、より曖昧な(しかしわずかに異なる)質問への回答の例があります。ここでは、シミュレーションを使用して、歪んだ(指数関数、たとえば)データ。その後、フォローアップの質問で、OPはサンプルに関する詳細情報を見つけました(離散的であり、判明したように、「指数」が示唆するよりもはるかにスキューが大きい)、...(ctd)
Glen_b -Reinstate Monica

2
(ctd)... シミュレーションを使用して、問題をより詳細調査しました。もちろん、実際には、最初の説明から推測するのではなく、人の実際のニーズに合わせて適切に調整されるように、「前後」が必要です。
グレン_b-モニカを復元14

ありがとう!それはまさに私が探していた種類のものです。
スタンピージョーピート14

17

P-見た目よりも有用性が低い。多くの場合、適合度評価でも推定はより優れたアプローチです。コルモゴロフ-スミルノフ距離を尺度として使用できます。エラーを発生させずに使用するのは困難です。保守的なアプローチでは、モデリングをガイドするためにKS距離の信頼限界の上限を使用します。これは(適切に)多くの不確実性をもたらし、そもそも堅牢な方法を選択することが望ましいと結論付ける可能性があります。それを念頭に置いて、元の目標に戻って、経験的分布を、たとえば2つ以上の可能なパラメトリック形式と比較すると、最終適合分布の真の分散は、経験的累積分布関数よりも正確ではありません。したがって、分布の選択を促進する主題理論がない場合、


3
私はこれがダウン投票された理由を推測できません。ここにはいくつかの素晴らしい点があります。ダウン票を投じた人が、自分が問題だと思うことを説明してくれると助かります。たぶん私たちは何かを学ぶでしょう。
グレン_b-モニカの復活14


2

これは、学術研究と実際の意思決定の違いを示す完璧な例だと思います。アカデミックな環境(私がいる場所)では、他の人が合理的であるとみなす限り、どのような方法でも議論できます。したがって、本質的には、無限の、時には円形の、乱暴なお互いがぶつかり合うことになります。その意味で、これは人々に取り組むべき何かを提供します。

ただし、実際に決定を下す立場にある場合、答えは「はい」または「いいえ」です。優柔不断は、意思決定者としての評判を傷つけます。もちろん、選択には統計だけでなく、ギャンブルや信仰の飛躍の要素も含まれます。要約すると、この種の演習は意思決定にある程度役立ちます。ただし、この仮説検定のみに基づいて決定を下すかどうかは、まったく別の話です。


2
それは正しい私見ではありません。私が読んだ最高の本は、決定のあらゆる段階に不確実性を常に取り入れることで、より良い決定を下す理由を説明しています。ネイトシルバーの『シグナルとノイズ』です。例えば、最多勝ポーカープレーヤーは、特定の手の確率は0または1であると信じていたことがない人々である
フランク・ハレル

1
@FrankHarrell道路を建設するかどうか、株式を購入するかどうかなどの質問にどのように答えると思いますか。それはイエスかノーの質問です。これらは、実際の意思決定者が答える必要がある質問の一種です。
LaTeXFan 14

1
@FrankHarrell確かに統計は決定を下すのに役立ちます。しかし、堅牢性の観点から、私たちがしているのは現実の近似です。数学で説明できないものが山ほどあります。そして、これが本能のような他の手段が作用する場所です。
LaTeXFan 14

1
P

1
@FrankHarrellご意見ありがとうございます。取り返しのつかない決定とそうでないことの区別は良い点だと思います。本質的には、問題の時間的側面に関するものです。短期間のうちに、ほとんどの決定は取り消せません。これは、人々が電話をかけるためにその場に置かれたときに起こったことです。一方、長期的な視野を確保できるのであれば、その通りです。状況の変化に対応できるシステムを用意することをお勧めします。それでも、金銭的または物理的な損害は避けられません。
LaTeXFan 14

2

ポイントは、純粋な統計的観点からは受け入れられないということですが、実際には受け入れます。たとえば、バリューアットリスクまたは同様の指標を使用してポートフォリオのリスクを推定する場合、ポートフォリオのリターン分布は非常に重要です。これは、リスクが分布のテールによって定義されるためです。

教科書の場合、例として正規分布がよく使用されます。ただし、ポートフォリオのリターンにファットテールがある場合(多くの場合そうです)、正規分布近似はリスクを過小評価します。したがって、リターンを調べて、通常の近似を使用するかどうかを決定することが重要です。これは必ずしも統計的検定を実行することを意味するものではなく、QQプロットまたは他の手段である可能性があることに注意してください。ただし、返品と返品モデルの分析に基づいて、ある時点で決定を下し、通常を使用するかしないかを決定する必要があります。

したがって、すべての実際的な目的で、拒否しないことは、厳密な統計的意味ではないが、実際に受け入れることを意味します。あなたの規制当局、監査役などに、通常のを受け入れ、日々の上層部に表示されますあなたの計算、でそれを使用するつもり否定するものではありません、それはようであるので、この場合には、これまであらゆる意味で結果に到達しましたまたは愚かな統計結果よりも強力です。


0

裁判所の被告人は決して無実ではない。彼らは有罪(無罪の帰無仮説を拒否)または無罪(無罪の推定を拒否しない)です。

証拠の欠如は、欠如の証拠ではありません。


-1

したがって、私の質問は、データが特定の分布に従うかどうかを結論付けることができない場合、そのようなテストを実行するポイントは何ですか?

比較する代替ディストリビューション(または一連のディストリビューション)がある場合は、便利なツールになります。

私は言うでしょう:私は手元に一連の観察結果があり、それは通常分布していると思う。(私は満足している同様のキャラクターの観察を見たので、私は合理的な正常曲線をたどったと思います。)また、彼らは正常な曲線ではなく、通常の非正常な曲線に従うかもしれません。(これは、通常の曲線に従わないが、たとえばスキューなどであるこのようなデータの本体を見たためだと思います)3次に、次の線に沿って問い合わせを行います:正規分布に由来する場合、私が得たカイ二乗はどのくらいの頻度で発生しますか?結論は、「100に2回しかめったにありません。」です。次に、記載も計算もされていない問い合わせを行いますが、次のように、有効な引数を完了するために絶対に必要だと思います。分布が非正規の場合、カイ二乗の差で判断されるこの経験は非常に頻繁に発生します。(私がしなければならないことは、非正規曲線が分布の観測されたゆがみ特性を持っていると想像することです。)したがって、経験的事象がより多くなると考えられる代替仮説の1つを受け入れるという原則に関する通常の仮説を拒否します頻繁に。帰無仮説の棄却は、代替案を受け入れる意思がある場合にのみ有効です(この代替案は、すべての点で必ずしも正確に定義されているわけではありません)。)したがって、経験的事象がより頻繁に起こると考えられる代替の仮説の1つを受け入れるという原則に関する通常の仮説を拒否します。帰無仮説の棄却は、代替案を受け入れる意思がある場合にのみ有効です(この代替案は、すべての点で必ずしも正確に定義されているわけではありません)。)したがって、経験的事象がより頻繁に起こると考えられる代替の仮説の1つを受け入れるという原則に関する通常の仮説を拒否します。帰無仮説の棄却は、代替案を受け入れる意思がある場合にのみ有効です(この代替案は、すべての点で必ずしも正確に定義されているわけではありません)。

さて、私が説明した推論の行は、私がより一般的なものとして説明したものとは対照的に、私の決定が3番目と4番目のケースで通常の決定と異なる理由を説明します。

3番目のケースに関しては、カイ2乗検定を試した後、正規性との差がないという仮説では、カイ2乗が非常に大きい分布はめったに起こらないという結論に達しました。これまでのところ、2番目のケースのこの時点での位置とまったく同じ位置にいます。しかし、元の供給が通常の非通常供給である場合にこの経験が発生する確率を調べてみましょう。この経験はより頻繁に発生しますか?そう言う理由はありません。分布は完全に対称的です。つまり、歪度はゼロです(平均の両側に正確に50%のケースがありました)。異なるクラスで期待される周波数との違いをざっと調べてみると、それらはsys-テマティック、すなわち、プラスの偏差とマイナスの偏差はランダムな順序で交互になります。このような分布は、もっともらしい非正規曲線から頻繁に予想されるものではありません。したがって、正規曲線を拒否する理由はありません。

私の考えでは、代替仮説を受け入れる意思がある場合を除いて、帰無仮説を拒否する正当な理由はないということです。

カイ二乗検定の適用で遭遇する解釈の難しさ。ジョセフ・バークソン。アメリカ統計学会誌。巻 33、No。203(1938年9月)、pp。526-536


1
バークソンの引用/論文は私にとって意味があり、妥当であると思われます。十分な大きさのサンプルサイズでは、たとえ測定誤差が原因であるとしても、仮定された分布はすべて拒否されることがよく知られています。データが仮定された分布の下にある可能性が低いことがわかった場合、より良い選択が何であるかを理解しようとするべきではありませんか?そして、これらの他の選択を正当化できない場合、必要に応じて、可能な限り単純な配布を想定する必要がありますか?誰がこれがなぜ投票されたのか説明できますか?
リヴィッド14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.