多重回帰と多重比較


10

たとえば、p個の説明変数の重回帰を当てはめたとします。t検定により、これらのいずれか1つが有意であるかどうかを確認できます()。部分的なF検定を実行して、それらの一部のサブセットが有意であるかどうかを確認できます()。H0:βi=0H0:βi=βj=...=βk=0

しかし、私がよく目にするのは、誰かが5つのt検定から5つのp値を取得し(共変量が5であると仮定)、p値が0.05未満のものだけを保持することです。多重比較チェックが実際にあるはずなので、それは少し間違っているようです?やようなものは重要だが、、、ははないと言うのは本当に公平ですか?β1β2β3β4β5

関連するメモとして、2つの別々のモデルで2つの回帰を実行するとします(異なる結果)。2つの結果の間の重要なパラメーターの多重比較チェックが必要ですか?

編集: 同様の質問と区別するために、「B_iは他のすべての共変量を調整するときに有意である」以外に、p値に対する他の解釈はありますか?この解釈では、すべてのB_iを調べて、0.5未満のB_iを削除できるようには思えません(これは他の投稿と同様です)。

B_iとYに関係があるかどうかをテストする確実な方法は、各共変量の相関係数のp値を取得してから、multcompを実行することです(ただし、信号は確実に失われます)。

最後に、B1 / Y1、B2 / Y1とB3 / Y1(したがって3つのp値)の間の相関を計算したとしましょう。無関係に、T1 / Y2、T2 / Y2、T3 / Y2の間の相関も行いました。正しいBonferroni調整は6つのテストすべてで6になると想定しています(最初のグループでは3つ、2番目のグループでは3ではなく、2つの「半」調整されたp値が得られます)。


1
これは、(この質問)[ stats.stackexchange.com/questions/3200/…の複製のようです。そうでない場合は、理由を教えてください。
ピーターフロム-モニカの回復

こんにちは、似ていますが、まったく同じではありません。おそらくより良い質問は、p値のリストを取得したときに、次のように可能な唯一の解釈であるでしょう。それらすべてをどのように見ますか。
user1357015 2013年

質問を編集したい場合は問題ありませんが、質問自体で編集することをお勧めします。しかし、私は「それらすべてをどのように見てどう思いますか」が何を意味するかを訴えていません。
ピーターフロム-モニカの回復

回答:


10

あなたが正しい。多重比較の問題は至る所に存在しますが、一般にそれが教えられている方法のために、人々はそれが全体の束の検定を介して互いに多くのグループを比較することに関係していると考えるだけです。実際には、複数の比較の問題が存在するが、多くのペアごとの比較のようには見えない多くの例があります。たとえば、多くの連続変数があり、相関があるかどうか疑問に思う場合は、複数比較の問題があります(ここを参照してください:見て、相関を見つけます)。 t

別の例はあなたが育てるものです。20個の変数を使用して重回帰を実行し、しきい値としてを使用した場合、すべてのnullがtrueであっても、変数の1つが偶然だけで「有意」であると予想されます。多重比較の問題は、多くの分析を実行する数学から単純に生じます。すべての帰無仮説が真であり、変数が完全に無相関である場合、真の帰無を誤って拒否しない確率は(たとえば、場合、これは)。 α=.051 - 1 - α P、P = 5 0.231(1α)pp=5.23

これを軽減する最初の戦略は、モデルの同時テストを実施することです。OLS回帰をフィッティングしている場合、ほとんどのソフトウェアは、出力のデフォルト部分としてグローバル検定を提供します。一般化線形モデルを実行している場合、ほとんどのソフトウェアは類似のグローバル尤度比検定を提供します。このテストは、複数の比較の問題によるタイプIエラーインフレーションからの保護を提供します(ここでの私の回答を参照してください:線形回帰における係数の有意性:有意なt検定vs非有意なF統計)。同様のケースは、いくつかのダミーコードで表されるカテゴリ変数がある場合です。あなたはそれらの解釈したくないFtt-tests、ただしすべてのダミーコードを削除し、代わりにネストされたモデルのテストを実行します。

別の可能な戦略は、ボンフェローニ補正のようなアルファ調整手順を使用することです。これを行うと、家族のタイプIのエラー率が低下するだけでなく、パワーも低下することを理解する必要があります。このトレードオフが価値があるかどうかは、判断を下す必要があります。(FWIW、私は通常、重回帰ではアルファ補正を使用しません。)

値を使用してモデルを選択する問題については、これは本当に悪い考えだと思います。他の変数は「有意ではない」ため、5つの変数を持つモデルから2つの変数のみを持つモデルに移動しません。人々がこれをするとき、彼らは彼らのモデルを偏らせる。ここで私の答えを読むのに役立つかもしれません:これをよりよく理解するための自動モデル選択のアルゴリズムp

更新に関しては、最初に単変量相関を評価して、最終的な重回帰モデルで使用する変数を決定することはお勧めしません。これを行うと、変数が互いに完全に無相関でない限り、内生性の問題が発生します。私はここに私の答えでこの問題を議論:推定代わりのb1x1+b2x2b1x1+b2x2+b3x3

異なる従属変数を使用した分析の処理方法に関する問題に関して、ある種の調整を使用するかどうかは、分析を相互にどのように比較するかによって異なります。従来の考え方は、それらが「家族」であると有意義に見なされているかどうかを判断することです。これについては、ここで説明します。「仮説のファミリー」の明確で実用的な定義は何でしょうか。 このスレッドを読むこともできます:複数の従属変数を予測するメソッド


これありがとう。それは私が必要としていたものです。あなたのedogeneityコメントについて。それは理にかなっていますが、相関のp値に対して保守的なボンフェローニ補正を行うと、たとえ寛容性があっても、ボンフェローニ補正はそれを考慮に入れるべきではないでしょうか。
user1357015 2013年

ボンフェローニ修正は内生性とは無関係です。共変量が互いに完全に相関している場合、一変量XY相関は関係のバイアス推定になります。あなたは自分がはめ込むつもりだったモデルをそこに止めるべきです。通常、これ以上先に進む必要はありません。真の予測モデルを作成する必要がある場合は、交差検証またはそれに適したその他の手法を使用する必要があります。
gung-モニカの回復

0

実用的なレベルでは、ベータ版がカテゴリー変数(つまり、ダミー)のレベルを反映しているかどうかも考慮する必要があると思います。これらの状況では、特定のベータが(意味のある)参照ベータと比較して異なるかどうかを知ることに関心があるのは理にかなっています。しかし、ペアワイズ比較を行う前に、全体的なカテゴリー変数のレベルが重要であるかどうかを知る必要があります(結合F検定または尤度比検定を使用)。これを行うと、使用するdfが少なくなるという利点があります

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.