私は最近、Ninman Pearsonの補題を平易な言葉で記述し、例を提供するlinkinブログにエントリを書きました。補題について明確な直観を提供するという意味で、目を開く例が見つかりました。多くの場合、確率では離散確率質量関数に基づいているため、pdfを使用する場合よりも理解しやすくなっています。また、あなたの補題の記述とは反対に、尤度比を対立仮説と帰無仮説の尤度として定義することを考慮してください。説明は同じですが、現在よりも小さいというよりも大きいです。私はそれが役立つことを願っています...
データ分析で働いており、いくつかの統計コースを経験した人は、Neyman-Pearson補題(NP-補題)を知ったかもしれません。メッセージはシンプルで、デモンストレーションはそれほどではありませんが、私がいつも難しいと感じたのは、それが何であるかについて常識をつかむことでした。PIGoodとJWHardinによる「統計の一般的なエラー」という本を読んで、いつも見逃していたNPレンマについてのこの直感を理解するのに役立つ説明と例を得ました。
数学的に完全な言語ではありませんが、Neyman-Pearsonが言うことは、特定の有意水準内で与えられた仮説を検証するために考え出すことができる最も強力なテストは、特定のしきい値を超える尤度比... woahhh!誰が簡単だと言った!
冷静を保ち、補題を分解します。
- 仮説。統計では、統計検定は拒否するか拒否しないかの2つの仮説を常に使用します。帰無仮説があり、それに対するサンプル証拠が十分に強くなるまで拒否されません。また、対立仮説もあります。これは、nullが偽と思われる場合に採用する仮説です。
- 検定の力(感度とも呼ばれます)は、帰無仮説が間違っているときに正しく棄却する割合を示します。強力なテストが必要なので、ほとんどの場合、正しい帰無仮説を拒否します!
- 検定の有意水準(別名偽陽性率)は、帰無仮説が真である場合に誤って棄却する時間の割合を示します。小さな有意水準が必要なので、帰無仮説を棄却するほとんどの場合、間違っていません!
- 棄却域は、テストのすべての可能な結果与えられ、棄却域は、私たちはその代替1の利益に帰無仮説を棄却行いますそれらの成果を含んでいます。
- 尤度は、帰無仮説(帰無仮説の尤度)または代替仮説(対立仮説の尤度)が真であると仮定した場合に、テストの観測結果を見た確率です。
- 尤度比は、帰無仮説の尤度で割った対立仮説尤度の比です。帰無仮説が代替仮説に対して真である場合にテスト結果が非常に期待される場合、尤度比は小さくなければなりません。
十分な定義!(ただし、それらを注意深く見ると、それらは非常に洞察力があることに気付くでしょう!)。NeymanとPearsonが言ったことに行きましょう:その力の観点から可能な限り最高の統計的検定が必要な場合、最も高い尤度比を持つ検定結果を含めて棄却域を定義し、さらに検定を追加してください帰無仮説が真である場合に検定が拒否する回数について特定の値に達するまで結果が得られます(有意水準)。
うまくいけばすべてが集まる例を見てみましょう。この例は、上記の本に基づいています。完全に自分で構成されているので、現実や個人的な意見を反映していると見なされるべきではありません。
誰かが欧州連合に対して自分の感情を尋ねることによって、誰かが移民クォータを設定することに賛成するかどうか(帰無仮説)を決定したいと想像してください。
私たちの質問に対する答えに関して、両方のタイプの人々の実際の確率分布を知っていると想像してください:
30%の誤検出エラーを受け入れたいと考えてみましょう。つまり、帰無仮説を棄却し、インタビュー対象者が本当にクォータに反対している場合に、クォータに反対すると仮定します。どのようにテストを構築しますか?
ネイマンとピアソンによれば、まず、最も高い尤度比で結果を取得します。これは3の割合での「本当にEUに似ています」の答えです。この結果、誰かが「EUに本当に好きだ」と言ったときにクォータに反対すると仮定すると、割り当てられる時間の10%クォータに対する人々の反対(意義)。ただし、このグループの全員がEUについて同じ意見を持っているわけではないので、割り当てられた人に対して30%の時間(力)でしか正しく分類しません。
これは、電力に関する限り、悪い結果のようです。ただし、このテストでは、割り当て人数の誤分類(重要性)について多くの間違いを犯しません。有意性に関してより柔軟性があるので、帰無仮説(棄却領域)を拒否する回答の袋に追加する必要がある次のテスト結果を探しましょう。
尤度比が最も高い次の答えは、「EUのような」です。EUの「本当に好き」と「いいね」の回答を、クォータの誰かの帰無仮説を拒否できるテスト結果として使用すると、クォータの人々が時間の30%(10% 「本当に好き」と「いいね」から20%)を割り当て、65%の時間(「本当に好き」から30%、「好き」から35%)の割り当てに対して正しく分類します。統計の専門用語では、有意性が10%から30%に増加しました(悪い!)一方で、テストの力は30%から65%に増加しました(良い!)。
これは、すべての統計的テストが持っている状況です。統計でも無料のランチのようなものはありません!テストの能力を高めたい場合は、重要度を上げることを犠牲にして行います。またはもっと簡単に言えば、善玉をより良く分類したい場合は、悪玉をより良く見せるという犠牲を払うことになります!
基本的に、これで完了です!特定のデータと30%の有意水準で、「本当に好き」と「いいね」のラベルを使用して誰かがクォータに違反しているかどうかを判断することで、最も強力なテストを作成しました...
「本当に好き」という答えが選択された後、「好き」ではなく「無関心」という答えが選択された後、2番目のステップに含めるとどうなるでしょうか。このテストの重要性は、以前と同じ30%でした。つまり、クォータの人々の10%が「本当に」のように答え、クォータの人々の20%が「嫌い」と答えます。両方のテストは、クォータの個人の誤分類と同じくらい悪いでしょう。しかし、パワーはさらに悪くなります!新しいテストでは、以前の65%の代わりに50%のパワーが得られます。「本当に好き」から30%、「無関心」から20%です。新しいテストでは、割り当てられた個人に対する識別の精度が低下します!
誰がここで手伝いましたか?ネイマン-パーソン尤度比の驚くべきアイデア!毎回、最も高い尤度比で答えをとることにより、有意性を制御しながら(小さな分母)、可能な限り多くの力(大きな分子)を新しいテストに含めることができました!