なぜ区間推定器がある問題(自信、ブートストラップ、信頼性など)のために、仮説テスト(すべての難しい概念を含み、最も統計的な罪の1つ)を教え、使用し続けるのですか?学生に与えられる最良の説明(もしあれば)は何ですか?伝統だけ?ビューは大歓迎です。
なぜ区間推定器がある問題(自信、ブートストラップ、信頼性など)のために、仮説テスト(すべての難しい概念を含み、最も統計的な罪の1つ)を教え、使用し続けるのですか?学生に与えられる最良の説明(もしあれば)は何ですか?伝統だけ?ビューは大歓迎です。
回答:
これは私の個人的な意見であるため、回答として適切かどうかはわかりません。
仮説検定を教えるべきなのはなぜですか?
要するに、非常に大きな理由の1つは、おそらく、この文を読むのにかかる時間内に、座っている場所の半径10フィート以内で数千(または数百万)ではないにしても、数百(または数百万)の仮説検定が行われたことです。
あなたの携帯電話は間違いなく尤度比テストを使用して、基地局の範囲内にあるかどうかを判断しています。ラップトップのWiFiハードウェアは、ルーターとの通信でも同じことを行っています。
ピザの2日前の部分を自動再加熱するために使用した電子レンジでは、仮説テストを使用して、ピザが十分に熱いかどうかを判断しました。
氷の多い道路でガソリンを過剰に与えたときに車のトラクションコントロールシステムが作動したか、タイヤ空気圧警告システムにより、助手席側のタイヤが異常に低く、ヘッドライトが5時頃に自動的に点灯したことが通知されます。夕方に設定された午後19時。
お使いのiPadは、(ノイズのある)加速度計の読み取り値に基づいて、このページを横向き形式でレンダリングしています。
テキサス州のベストバイで薄型テレビを購入し、昼食、ガソリン、映画を購入して数時間以内にワシントン州のモールのザレスで2000ドルのダイヤモンドリングを購入すると、クレジットカード会社はカードを停止しました。ピッツバーグ郊外のあなたの家の近く。
お使いのブラウザでこのWebページをレンダリングするために送られたビットの数十万人は、それぞれ個別に、彼らが最も可能性の高い0または1(いくつかの素晴らしい誤り訂正に加えて)したかどうかを判断するための仮説検定を行いました。
これらの「関連する」トピックを少し右に見てください。
これらはすべて、仮説検定のために「起こりました」。これらの多くの場合、いくつかのパラメーターの間隔の推定値を計算できます。しかし、特に自動化された産業プロセスでは、仮説検定の使用と理解が重要です。
より理論的な統計レベルでは、統計的検出力の重要な概念は、意思決定理論/仮説検定のフレームワークからかなり自然に生じます。さらに、純粋な数学者であっても、ネイマンピアソンの補題の美しさとシンプルさ、そしてその証明を高く評価できると信じています。
これは、仮説検定が十分に教えられている、または理解されていると言うことではありません。概して、そうではありません。そして、特に医学では、間隔の推定値の報告と効果の大きさ、および実用的対統計的有意性の概念は、正式な仮説検定よりもほぼ普遍的に望ましいことに同意しますが、これは仮説検定および関連することを意味するものではありません概念自体は重要ではなく、興味深いものでもありません。
私はいくつかの理由で仮説検定を教えています。一つは歴史的であり、彼らは彼らが読んだ仮説調査の観点を理解している多くの先行研究を理解しなければならないだろうということです。もう1つは、現代でも、他の種類の統計分析を実行する際に、暗黙的に多くの研究者によって使用されていることです。
しかし、私がそれを教えるとき、これらの仮定と推定はモデルの構築の一部であることをモデル構築の枠組みで教えます。そうすれば、より複雑で理論的に興味深いモデルの比較に切り替えるのは比較的簡単です。多くの場合、研究では、理論と無対ではなく、理論が互いに対立します。
仮説検定の罪は、数学に固有のものではなく、これらの計算の適切な使用です。主に嘘をついているのは、過度の信頼と誤解です。ナイーブな研究者の大多数が、これらの事柄との関係をまったく認識せずに区間推定を排他的に使用している場合、それを仮説と呼びます。
私はそれが依存すると考えているあなたが話している仮説検定します。「古典的な」仮説検定(Neyman-Pearson)は、検定を行ったときに実際に起こったことを適切に条件付けしていないため、欠陥があると言われています。代わりに、長期的に実際に見たものとは無関係に機能するように設計されています。しかし、条件付けに失敗すると、個々のケースで誤解を招く結果につながる可能性があります。これは、長い目で見れば、プロシージャが個々のケースを「気にしない」からです。
仮説検定は意思決定の理論的枠組みに入れることができ、それを理解するためのはるかに良い方法だと思います。次の2つの決定として問題を説明できます。
決定フレームワークは、「何をしますか」という概念を明確に区別するため、はるかに理解しやすくなっています。そして「真実は何ですか?」(事前情報を介して)。
「決定理論」(DT)を質問に適用することもできます。しかし、仮説のテストを停止するために、DTは、利用可能な代替決定を用意する必要があると言います。質問は次のとおりです。仮に仮説検定が放棄された場合、何が代わりになりますか?この質問に対する答えは考えられません。仮説検定を行うための代替方法しか考えられません。
(注:仮説検定の文脈では、データ、サンプリング分布、事前分布、および損失関数はすべて、意思決定前に取得されるため、事前情報です。)
私が筋金入りの頻度主義者であれば、信頼区間は非常に規則的に逆仮説検定であることに注意してください。つまり、95%区間は、データを含む検定が.05で拒否しないすべてのポイントを記述する別の方法である場合レベル。これらの状況では、一方より他方を優先するのは、方法よりも説明の問題です。
さて、もちろん博覧会は重要ですが、それはかなり良い議論になると思います。異なる視点からの同じ推論の修正として2つのアプローチを説明するのは、きちんとしていて明確です。(すべての区間推定器が反転テストではないという事実は、教育的に言えば、洗練されていませんが、特に厄介な事実ではありません)。
上記で指摘したように、より深刻な影響は、観測を条件とする決定から生じます。しかし、退却時でさえ、フリークエンティストは常に、観察の条件付けが賢明でなかったり、照らされなかったりする状況がたくさんある(おそらく大多数ではない)ことを観察できました。これらの場合、HT / CIのセットアップは(「ではない」)まさに必要なものであり、そのように教える必要があります。
初期の統計学の学生にネイマンピアソンの仮説検定を教える際に、私はしばしばそれを元の設定、つまり意思決定の設定に配置しようとしました。次に、タイプ1とタイプ2のエラーのインフラストラクチャはすべて意味があります。帰無仮説を受け入れるかもしれないという考えも同様です。
決定を下す必要があります。決定の結果はパラメーターの知識によって改善できると思います。そのパラメーターの推定値しかありません。私たちはまだ決断を下さなければなりません。次に、パラメータの推定値を取得するという文脈で行う最善の決定は何ですか?
元々の設定(不確実性に直面して決定を下す)では、NP仮説検定は完全に理にかなっているように思えます。たとえば、N&P 1933、特にpを参照してください。291。
ネイマンとピアソン。統計的仮説の最も効率的なテストの問題について。ロンドン王立協会の哲学的取引。シリーズA、数学的または物理的特性の論文を含む(1933)vol。231 pp。289-337
仮説検定は、多くの質問をまとめるのに便利な方法です。治療の効果はゼロですか、それとも非ゼロですか?これらのようなステートメントと統計モデルまたは手順(区間推定器の構築を含む)の間の能力は、実務家にとって重要です。
また、(従来の意味での)信頼区間は、本質的に仮説検定よりも「シンプローン」ではありません-信頼区間の実際の定義を知っているイントロ統計はいくつですか?
おそらく、問題は仮説テストや区間推定ではなく、同じものの古典的なバージョンです。ベイズの定式化はこれらを非常にうまく回避します。