仮説検定なしの統計


7

Andrew Gelmanは彼のブログ投稿で、ベイジアン仮説検定のファンではない(ここを参照:http : //andrewgelman.com/2009/02/26/why_i_dont_like/)と述べています。また、フリークエンティスト仮説検定には欠点もあると述べています。

私の質問は次のとおりです。仮説検定(繰り返し申し訳ありません)についても、仮説検定を行わずに統計を実行して、意思決定を行うことはできますか?解決策は推定のみに依存し、推定確率に基づいて決定を下すことですか?もしそうなら、これについてどこで学ぶべきか指摘できますか?


2
ブートストラップシミュレーションを試すこともできますが、完全な数学統計になるとは思いません。
Alexey Burnakov

4
私はおそらくゲルマンほど遠くにいるわけではありませんが、仮説検定は、それが扱うために使用されるほとんどの質問に答えるのにかなりまれな方法であると言わざるを得ません(推定問題として表現された非常に多くの質問があり、 「どちらのテストを使用すればよいですか?」で終わります。あまりにも悲しいので、人々はリモートで「テストのような」質問をしなかったことがわかりません。多くの論文は似ています)。多くの場合、本当の質問は、あなたが始めたときと同じ形ではなかったことに気付かなくなるまで、仮説テストの丸い穴に執拗に打ち込まれた角張ったペグです。
Glen_b-モニカ

@Glen_b見積もりとグラフィックのみで結果を提示しようとしました(時には説得力のあるものもあれば、そうでないものもあります)。「しかし、それが[重要/意味のある/検証可能]であることをどのようにして知ることができるのか」と反論されることはかなり一般的です。「この箱ひげ図を見てください。そうです」と言うのは決して適切ではありません。一方、を提示した場合、「その影響が関連していることをどのようにして知ることができるのか」という逆の質問をする人はいません。それは主に非統計学者によって動かされているパラドックスだと思います。p<0.05
AdamO

私は難しさを理解しています。この態度は、テストで答えられる質問がない場合に、少なくともテストを回避するように人々を困難にすることの一部です。推定された効果が単なるランダムな変動の結果ではないことを示すために、標準エラー(大きなサンプルの場合)や間隔を示すこともできます。それは、私たちが実際にポイントnullが実際に真実であると思っていると言う人々が疑問に思うのです(もし彼らがテストを信じているなら、彼らはおそらく等価テストを行うべきでしょう)。
Glen_b-モニカ

2つのポイントを追加します。仮説検定は、統計の教示がこのように極端に多いため、統計の主要な部分であると誤って考えられています。それは途方もなく直観に反するものであり、それを正当化する哲学的な裏返しは、それがあらゆるデータ分析にとって重要であると生存者に信じさせる。第2に決定理論のフレームワークはすべて、偽陽性と偽陰性につながります。私たちにできることは、パワーを最大化し、タイプIのエラー率を定量化することだけです。
AdamO

回答:


8

自由をもって質問を「アンドリューゲルマンが仮説テストに対して提唱している議論は何か」と言い換えましょう。

投稿にリンクされている論文では、著者はモデル選択に機械的手順使用するか、または次のように述べています。

[ラフター]は不可能を約束します。特定の目的を考慮せずに、特定の目的に適したモデルを選択します。

頻度論またはベイズ仮説検定は、このような機械的手順の2つの例です。彼らが批判する具体的な方法は、BICによるモデル選択であり、これはベイズ仮説検定に関連しています。それらはそのようなプロシージャがひどく失敗することができるとき2つの主要なケースをリストします:

  1. 「データが多すぎます」:たとえば、100の標準正規分散を持つ回帰モデルとします。最初のエントリがで、他のすべてのエントリが等しいとします。十分なデータがあれば、仮説検定はすべての推定値が「有意」であることをもたらします。これは、モデルにを含める必要があることを意味しますか?機能と結果の間のいくつかの関係を発見することに興味がある場合、のみのモデルを検討する方がよいでしょうか?yi=βxi+ϵiβ11010βx2,x3,x100x1
  2. 「データが不十分」:極端な例として、サンプルサイズが非常に小さい場合、「有意な」関係を見つけることはできません。これは、使用するのに最適なモデルが、リグレッサを含まないモデルであることを意味しますか?

これらの質問は特定の状況におけるモデラーの目的に依存するため、これらの質問に対する一般的な回答はありません。多くの場合、目的が予測である場合の相互検証サンプルなど、目的関数により密接に関連する基準に基づいてモデルを選択することができます。ただし、多くの状況では、データベースの手順は、専門家の判断(または、ゲルマンが好むように慎重に選択した優先順位を使用したベイジアンアプローチを使用すること)で補完する必要があります。


実際、ポイント1に関しては、機械学習の多くがこの問題に関心を持っています。多くの弱い予測子から強い予測子を作成できますか?ここにはいくつかの正当な約束があると思います。たとえば、GWASの研究では、糖尿病の遺伝的要因の可能性を20〜100のSNPのどこかにまで絞り込んでいます。これらはどれも、他の遺伝性疾患で以前に発見されたほど顕著に予後が悪いものではありません(BRCA遺伝子および乳がんとのそれらのほぼ決定論的な関係など)。この発見は、予防のための遺伝子治療への通常のアプローチを思いとどまらせます。
AdamO

これは良い点です。強力な予測を作成する一般的で自動化された手順が利用可能になると、アナリストの役割がさらに減り、多くのコンテキストではそれがなくなる可能性さえあります。
Matthias Schmidtblaicher

5

仮説検定へのネイマン・ピアソンの意思決定理論的アプローチ(拒否/受け入れ)は、ポッパーの改ざんと密接に連携しています。この方法は無効ではありません。知識、製品、および専門的利益の消費に対する増大する人間の欲望に対応していないだけです。

ポッパーの科学へのアプローチの妥当性は、1。事前指定された仮説2.適切な力でのみ研究を行うこと3.正真正銘の正/負の研究結果を消費することに強く基づいています。私たちは(学界、企業、政府、メディアなどで)過去一世紀にわたってそれを何もしていません

フィッシャーは「仮説テストなしの統計」を行う方法を提案しました。彼は、p値を0.05カットオフと比較することを提案していません。彼はp値を報告し、研究のを報告すると述べた。

多くの人が提案している別の方法は、信頼区間(CI)を報告することです。考えは、単位のない量(p値など)ではなく物理量に基づいて試験の結果を評価するように強制することで、効果サイズ、解釈可能性、一般化可能性などのより微妙な側面を検討するように促すでしょう。ただし、これも横ばいになっています。CIが0(または比率スケールの場合は1)を超えるかどうかを検査し、そうでない場合は統計的に有意であると宣言する傾向が高まっています。Tim Lashは、このバックドア仮説検定を呼び出します。

仮説検証の新時代については、曲がりくねった無限の議論があります。私が以前に話した貪欲に対処していない人は誰もいません。統計のやり方を変える必要はない、科学のやり方を変える必要があるという印象です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.