有意性テストまたは相互検証？

20

相関変数を選択するための2つの一般的なアプローチは、有意性検定と相互検証です。それぞれがどのような問題を解決しようとしていますか？また、いつ他の問題よりも優先するのでしょうか？

cross-validation feature-selection

— ジョンロス
ソース

22

まず、明示的にして、質問を多重線形回帰のコンテキストに入れて、パラメーター変数を使用していくつかの異なる変数（相関または非変数）で応答変数を回帰しますおよび回帰関数は、応答変数の平均のモデルである所定の観測。 $y$ $x_1, \ldots, x_p$ $\beta = (\beta_0, \beta_1, \ldots, \beta_p)$

f （ {バツ}_{1} 、 \dots 、 {バツ}_{p} ） = β_{0} + β_{1} {バツ}_{1} + \dots + β_{p} {バツ}_{p} 、

$f(x_1, \ldots, x_p) = \beta_0 + \beta_1 x_1 + \ldots + \beta_p x_p,$

x_{1}, \dots, x_{p}

$x_1, \ldots, x_p$

問題は、のサブセットをゼロ以外に選択する方法、特に、有意性検定と相互検証の比較です。 $\beta_i$

用語について明確にするために、有意性テストは一般的な概念であり、異なるコンテキストで異なる方法で実行されます。たとえば、検定統計量の選択に依存します。相互検証は、期待される一般化誤差を推定するためのアルゴリズムであり、これは重要な一般概念であり、損失関数の選択に依存します。

予想汎化誤差は、正式に定義するほとんどの技術が、言葉でそれは独立したデータセットに予測するために使用される場合あてはめたモデルの予想損失期待が推定ならびに独立したデータのために使用されるデータ上で、予測に使用されるセット。

合理的な比較を行うには、が0に等しくなるかどうかに焦点を当てます。 $\beta_1$

以下のための重要性テストの帰無仮説主手順は計算することである選択された検定統計量は、我々のデータセットについて観察されたよりも大きくなる確率である-value、帰無仮説の下で、仮定し。解釈は、小さな値が帰無仮説に対する証拠であるということです。有名な0.05または0.01の有意水準など、絶対的な意味で「小さい」とは何かについて一般的に使用される規則があります。 $\beta_1 = 0$ $p$ $\beta_1 = 0$ $p$
以下のために期待される汎化誤差我々は、おそらくクロスバリデーション、仮定の下で期待される汎化誤差の推定使用して、計算。この量は、使用する方法でモデルが適合し、場合、独立したデータの予測に使用した場合に平均して実行されるモデルを示しています。予想される大きな一般化エラーは悪いですが、どれだけ大きくする必要があるかについての絶対値に関するルールはありません。が0と異なる場合のモデルの予想される汎化誤差を推定する必要があります。その後、2つの推定誤差を比較できます。どちらが小さいかは、選択したモデルに対応します。 $\beta_1 = 0$ $\beta_1 = 0$ $\beta_1$

有意性検定を使用すると、他のモデルと比較した帰無仮説の下でのモデルの「パフォーマンス」に直接関係しませんが、ヌルが間違っていることを文書化することに関係します。これは、主な目的がとして定式化できる指定された科学的仮説を確認して文書化することである確認セットアップで最も理にかなっています。 $\beta_1 \neq 0$

予想汎化誤差は、他の一方で、唯一の予想予測損失の面で平均「パフォーマンス」に関係し、それができるようにするのが最善であると結論された予測の面で0から異なるようにすると、文書にしようではありませんその 0から「本当に」異なっているどんなことを意味しています。 $\beta_1$ $\beta_1$ $-$

私は公式に有意性テストが必要な問題に個人的に取り組んだことがありませんが、値は私の仕事に道を見つけ、変数選択のための賢明なガイドと第一印象を提供します。ただし、ほとんどの場合、形式的なモデル選択の一般化エラーと組み合わせて、投げ縄などのペナルティ化方法を使用し、値を計算する傾向をゆっくりと抑えようとしています。 $p$ $p$

探索的分析では、有意性検定と値を支持する議論はありません。変数選択の予想される一般化エラーなどの概念に焦点を当てることをお勧めします。が0でないことを文書化するために値を使用することを検討する他の状況では、代わりに推定値と信頼区間を報告することをお勧めします。 $p$ $p$ $\beta_1$ $\beta_1$

— NRH
ソース

17

有意差検定と段階的手順を使用してモデル選択を実行するだけで、実際にはそうでない場合でも、有意な予測子を持つ非常に強力なモデルがあると信じることができます。偶然強い相関が得られる場合がありますが、他の不必要な予測変数を削除すると、これらの相関が強化されるようです。

もちろん、選択手順は結果と最も強い相関関係を持つ変数のみを保持し、段階的な手順が進むにつれて、タイプIエラーをコミットする確率が想像よりも大きくなります。これは、変数がモデルにランダムに含めるために選択されなかったという事実を考慮して標準誤差（したがってp値）が調整されず、そのセットを選択するために複数の仮説検定が行われたためです。

デビッド・フリードマンは、「スクリーニング回帰式に関する注意」と呼ばれるこれらのポイントを示すかわいい論文を持っています。要約：

実質的な理論が弱い状況で回帰モデルを開発することを検討してください。極端なケースに焦点を当てるために、実際には従属変数と説明変数の間に関係がないと仮定します。それでも、多くの説明変数がある場合、は高くなります。t統計量が小さい説明変数が削除され、方程式が再適合されると、は高いままになり、全体のFは非常に有意になります。これは、シミュレーションおよび漸近計算によって実証されています。 $R^2$ $R^2$

あなたが述べたように、この問題の潜在的な解決策の1つは、相互検証のバリアントを使用することです。私のモデルを信じるのに十分な経済的（研究分野）または統計的理由がない場合、これは適切なモデルを選択して推論を実行するための好ましいアプローチです。

他の回答者は、AICまたはBICを使用した段階的な手順は相互検証と同義であると言及するかもしれません。ただし、これは予測子の数に対する観測値の数が大きくなる場合にのみ機能します。観測数に関連して多くの変数を持つコンテキストでは（フリードマンは10以下の観測ごとに1つの変数を言う）、この方法での選択は上記の貧弱な特性を示す可能性があります。

強力なコンピューターの時代には、段階的選択よりもモデル選択手順として相互検証を使用しない理由は見当たりません。

— チャーリー
ソース

AICまたはBICを使用した段階的な手順の参照をクロスバリデーションと同義的にしてもらえますか？AIC / BICがクロスバリデーションと同等であることについて読んだことがありますが、段階的な設定ではありません。

— リチャードハーディ