(信頼区間が利用可能な場合)仮説検定を教えて使用し続けるのはなぜですか?


56

なぜ区間推定器がある問題(自信、ブートストラップ、信頼性など)のために、仮説テスト(すべての難しい概念を含み、最も統計的な罪の1つ)を教え、使用し続けるのですか?学生に与えられる最良の説明(もしあれば)は何ですか?伝統だけ?ビューは大歓迎です。



4
これらの引用符は非常に適切です。すべてのモデルが間違っていますが、いくつかは便利です。
mpiktas

回答:


60

これは私の個人的な意見であるため、回答として適切かどうかはわかりません。

仮説検定を教えるべきなのはなぜですか?

要するに、非常に大きな理由の1つは、おそらく、この文を読むのにかかる時間内に、座っている場所の半径10フィート以内で数千(または数百万)ではないにしても、数百(または数百万)の仮説検定が行われたことです。

あなたの携帯電話は間違いなく尤度比テストを使用して、基地局の範囲内にあるかどうかを判断しています。ラップトップのWiFiハードウェアは、ルーターとの通信でも同じことを行っています。

ピザの2日前の部分を自動再加熱するために使用した電子レンジでは、仮説テストを使用して、ピザが十分に熱いかどうかを判断しました。

氷の多い道路でガソリンを過剰に与えたときに車のトラクションコントロールシステムが作動したか、タイヤ空気圧警告システムにより、助手席側のタイヤが異常に低く、ヘッドライトが5時頃に自動的に点灯したことが通知されます。夕方に設定された午後19時。

お使いのiPadは、(ノイズのある)加速度計の読み取り値に基づいて、このページを横向き形式でレンダリングしています。

テキサス州のベストバイで薄型テレビを購入し、昼食、ガソリン、映画を購入して数時間以内にワシントン州のモールのザレスで2000ドルのダイヤモンドリングを購入すると、クレジットカード会社はカードを停止しました。ピッツバーグ郊外のあなたの家の近く。

お使いのブラウザでこのWebページをレンダリングするために送られたビットの数十万人は、それぞれ個別に、彼らが最も可能性の高い0または1(いくつかの素晴らしい誤り訂正に加えて)したかどうかを判断するための仮説検定を行いました。

これらの「関連する」トピックを少し右に見てください。

これらはすべて、仮説検定のために「起こりました」。これらの多くの場合、いくつかのパラメーターの間隔の推定値を計算できます。しかし、特に自動化された産業プロセスでは、仮説検定の使用と理解が重要です。


より理論的な統計レベルでは、統計的検出力の重要な概念は、意思決定理論/仮説検定のフレームワークからかなり自然に生じます。さらに、純粋な数学者であっても、ネイマンピアソンの補題の美しさとシンプルさ、そしてその証明を高く評価できると信じています。

これは、仮説検定が十分に教えられている、または理解されていると言うことではありません。概して、そうではありません。そして、特に医学では、間隔の推定値の報告と効果の大きさ、および実用的対統計的有意性の概念は、正式な仮説検定よりもほぼ普遍的に望ましいことに同意しますが、これは仮説検定および関連することを意味するものではありません概念自体は重要ではなく、興味深いものでもありません。


2
興味深い例のリストをありがとう。質問の目的を考えると、統計コースのレビューに関する議論に貢献するために、最新のデバイスでのテストの実装に関する詳細を取得しようとします。これは工学の学生にとって大きな動機になります。
ワシントンS.シルバ

3
あなたの例のほとんどは、古典的な仮説の決定(固定された信頼レベルを暗示する)ではなく、決定手順を実際に必要とします。
kjetil bハルヴォルセン14年

1
親愛なる@kjetil:正直に言うと、ここで下票は少し厳しいようです。確かに、この質問は古典的な仮説検定について具体的な質問をするものではなく、私の答えもその仮定をしていません!(仮説検定は、ここでは広く解釈され、正当な理由があります。)
枢機

1
自動再加熱機能付きの電子レンジを購入する必要があります。
jmbejara

2
これは非常に雄弁な答えですが、なぜこれらすべてが「仮説検定」であるかについてもう少し説明していただければ幸いです。あなたの例はすべて自動化されたバイナリ決定に関するものであることを理解しています。ほとんどの場合、ある値が測定され、カットオフと比較されて、それより上か下かを判断します(したがって、決定に到達します)。これはすでにあなたにとって「仮説検定」として認められていますか、それとも何か他のものを意味していましたか?なぜ仮説検定がまだ教えられているのかについてOPが尋ねたとき、彼らは単純な閾値設定について言及しなかったと思います。
アメーバは

29

私はいくつかの理由で仮説検定を教えています。一つは歴史的であり、彼らは彼らが読んだ仮説調査の観点を理解している多くの先行研究を理解しなければならないだろうということです。もう1つは、現代でも、他の種類の統計分析を実行する際に、暗黙的に多くの研究者によって使用されていることです。

しかし、私がそれを教えるとき、これらの仮定と推定はモデルの構築の一部であることをモデル構築の枠組みで教えます。そうすれば、より複雑で理論的に興味深いモデルの比較に切り替えるのは比較的簡単です。多くの場合、研究では、理論と無対ではなく、理論が互いに対立します。

仮説検定の罪は、数学に固有のものではなく、これらの計算の適切な使用です。主に嘘をついているのは、過度の信頼と誤解です。ナイーブな研究者の大多数が、これらの事柄との関係をまったく認識せずに区間推定を排他的に使用している場合、それを仮説と呼びます。


+1、ありがとう。よく議論した。しかし、入門コースでは、厳密な意味でモデルの選択はありません。仮説検定の導入に適した他のコンテキストを引用できますか?パワーの推定なしでテストの結果を報告することは許容されますか?
ワシントンS.シルバ

2
入門コースでモデルを選択する必要はありません。コースの変更を検討している場合は、開始するのに適した場所として検討してください。
ジョン

20

PPPP


2
一部のフィールドでは、「唯一の場所...」と「ANOVAを含める...」は、膨大な量の統計ツールボックスをカバーしたことを意味しません。
フォマイト

4
このポジションについて多くのことが言われていると思います。多くの研究者がデータのパターンについて主に知りたいことを考えると、多くの統計を合理的に取り除いて、データのプロットを単純に使用できるかどうかよく疑問に思います。(もちろん、これはプロットが巧みとinsightfully行われるだろうと仮定して、仮説検定は、私たちがそれらについてあることを言うことができるかのように悪いことではないでしょう。)
GUNG -モニカ元に戻し

1
厳選して、「証拠の欠如は不在の証拠ではない」という引用には同意しません。効果の証拠がないことは、効果が存在しないという証拠ではありませんが、それは確かにその効果が存在することに対する証拠を構成します。問題は、重要でない結果がもたらす効果に対する証拠の量です。大きなp値の問題は、正規分布の場合、大きなp値適合度の単調な関数であるため、仮説の証拠になることです。正規分布は非常に一般的であるため、そして、人々はこれを見て外挿し
probabilityislogic

5
P

11

私はそれが依存すると考えているあなたが話している仮説検定します。「古典的な」仮説検定(Neyman-Pearson)は、検定を行ったときに実際に起こったことを適切に条件付けしていないため、欠陥があると言われています。代わりに、長期的に実際に見たものとは無関係に機能するように設計されています。しかし、条件付けに失敗すると、個々のケースで誤解を招く結果につながる可能性があります。これは、長い目で見れば、プロシージャが個々のケースを「気にしない」からです。

仮説検定は意思決定の理論的枠組みに入れることができ、それを理解するためのはるかに良い方法だと思います。次の2つの決定として問題を説明できます。

  1. H0
  2. HA

決定フレームワークは、「何をしますか」という概念を明確に区別するため、はるかに理解しやすくなっています。そして「真実は何ですか?」(事前情報を介して)。

「決定理論」(DT)を質問に適用することもできます。しかし、仮説のテストを停止するために、DTは、利用可能な代替決定を用意する必要があると言います。質問は次のとおりです。仮に仮説検定が放棄された場合、何が代わりになりますか?この質問に対する答えは考えられません。仮説検定を行うための代替方法しか考えられません。

(注:仮説検定の文脈では、データ、サンプリング分布、事前分布、および損失関数はすべて、意思決定に取得れるため、事前情報です。)


この問題に関する私の目標は、専門家の意見を集めて、ブラジルで働いている研究所で進行中の統計学のコースの改訂に関する議論を充実させることでした。目標は達成されており、@ cardinal、@ Andrew Robinson、@ probabilityislogic、および@JMSについても意見が述べられています。明らかに、仮説検定(NP、DT、またはByesによる)は非常によく教えられるべきですが、統計の教えの普遍性を考えると、必要に応じてコースを構築するという課題は、テクニック自体と同等またはそれ以上に複雑です。ご協力ありがとうございます。
ワシントンS.シルバ

1
合理的な損失/効用関数を組み込んだベイジアン手法を使用して厳密に行うと、決定理論が大好きです。そのような機能が利用できない場合、間隔の推定を優先する傾向があります。
フランクハレル

@FrankHarrell-私は同意しますが、ユーティリティ関数が通常情報内容に基づいている一種の「決定理論」として間隔推定を分類します(つまり、より多くの情報を使用する結論が優れています)-これは最適化されています事後分布自体、および予測が重要な場合は事後予測による可能性があります。間隔推定は、事後の便利な要約を提供します。また、良好な信頼区間(例:MLEに基づく)は、手元のデータの外部の情報が乏しい場合にこれに非常に良い近似を提供します
確率

通常、特定の決定を念頭に置いていない場合(おそらく、合理的な損失関数を持たない主な理由)に間隔推定を使用するため、さまざまなシナリオに対応する必要があります。
確率の

9

私が筋金入りの頻度主義者であれば、信頼区間は非常に規則的に逆仮説検定であることに注意してください。つまり、95%区間は、データを含む検定が.05で拒否しないすべてのポイントを記述する別の方法である場合レベル。これらの状況では、一方より他方を優先するのは、方法よりも説明の問題です。

さて、もちろん博覧会は重要ですが、それはかなり良い議論になると思います。異なる視点からの同じ推論の修正として2つのアプローチを説明するのは、きちんとしていて明確です。(すべての区間推定器反転テストではないという事実は、教育的に言えば、洗練されていませんが、特に厄介な事実ではありません)。

上記で指摘したように、より深刻な影響は、観測を条件とする決定から生じます。しかし、退却時でさえ、フリークエンティストは常に、観察の条件付けが賢明でなかったり、照らされなかったりする状況がたくさんある(おそらく大多数ではない)ことを観察できました。これらの場合、HT / CIのセットアップは(「ではない」)まさに必要なものであり、そのように教える必要があります。


正式に言えば、任意のタイプIエラー率に結合されたアルファを持つ仮説検定はない、カバレッジパラメータ(1-α)との信頼区間およびその逆に変えることができますか?これが定義に伴うものだと信じるために、あなたが筋金入りのフリークエンティストである必要はないと思います。:
キースウィンスタイン

3
@Keith定義に関する議論はありませんが、あなたはそれらを興味深く、おそらく便利な数学のビット以上のものであると考えるために頻繁にいる必要があります。つまり、サンプリングの理論的特性が統計的推論に不可欠であると考える場合、信頼区間と仮説検定にも同じように熱心になるでしょう(またはそうすべきです)。私の質問は、「良い」CIと「悪い」HTの質問者の対比です。それらをひとまとめにすることで、他の答えで出てきたコントラストに再び焦点を当てたいと思いました。
共役

7

初期の統計学の学生にネイマンピアソンの仮説検定を教える際に、私はしばしばそれを元の設定、つまり意思決定の設定に配置しようとしました。次に、タイプ1とタイプ2のエラーのインフラストラクチャはすべて意味があります。帰無仮説を受け入れるかもしれないという考えも同様です。

決定を下す必要があります。決定の結果はパラメーターの知識によって改善できると思います。そのパラメーターの推定値しかありません。私たちはまだ決断を下さなければなりません。次に、パラメータの推定値を取得するという文脈で行う最善の決定は何ですか?

元々の設定(不確実性に直面して決定を下す)では、NP仮説検定は完全に理にかなっているように思えます。たとえば、N&P 1933、特にpを参照してください。291。

ネイマンとピアソン。統計的仮説の最も効率的なテストの問題について。ロンドン王立協会の哲学的取引。シリーズA、数学的または物理的特性の論文を含む(1933)vol。231 pp。289-337


4

仮説検定は、多くの質問をまとめるのに便利な方法です。治療の効果はゼロですか、それとも非ゼロですか?これらのようなステートメントと統計モデルまたは手順(区間推定器の構築を含む)の間の能力は、実務家にとって重要です。

また、(従来の意味での)信頼区間は、本質的に仮説検定よりも「シンプローン」ではありません-信頼区間の実際の定義を知っているイントロ統計はいくつですか?

おそらく、問題は仮説テストや区間推定ではなく、同じものの古典的なバージョンです。ベイズの定式化はこれらを非常にうまく回避します。


2
@JMS、「生徒が信頼区間の実際の定義を知っているイントロ統計はいくつですか?」または、PhD statの卒業生、それについて。
枢機

結構!ちなみに、私はストライプの学生や実務家を掘ることを意味しませんでした。しかし、統計の高度な仕事にサインアップしていない人から精神的な体操を期待するのは少しクレイジーです。
JMS

2
CIの本当の定義を言うことができるは何ですか?そして、この定義で一貫してそれらを使用する人は何人ですか?「パラメータが指定された間隔内にある可能性が高い」と考えるのは非常に困難です-CIが何であるかを知らなくても。
確率論的

報告書は通常の報告書に記載されています
ワシントンS.シルバ

1
私が表現しようとしたことは、パワーの推定を伴わない仮説検定は非常に疑わしいことであり、区間推定にはこの追加の合併症の原因がないということです。
ワシントンS.シルバ

2

その理由は意思決定です。ほとんどの意思決定では、あなたはそれをするかしないかのどちらかです。あなたは一日中間隔を見続けるかもしれません、最終的にあなたがそれをするかしないかを決める瞬間があります。

仮説検定は、YES / NOのこの単純な現実にうまく適合します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.