ペナルティ付き回帰モデルからのR 2乗と統計的有意性の推定


20

ペナルティのあるRパッケージを使用して、予測子が多く、どの予測子が重要であるかに関する知識がほとんどないデータセットの係数の短縮推定値を取得しています。チューニングパラメーターL1とL2を選択し、係数に満足した後、R二乗のようなモデルの適合を要約する統計的に健全な方法はありますか?

さらに、モデルの全体的な重要性をテストすることに興味があります(つまり、R²= 0を実行するか、すべてを= 0にします)。

ここで尋ねられた同様の質問の回答を読みましたが、私の質問にはまったく答えていませんでした。ここで使用しているRパッケージに関する優れたチュートリアルがあります。著者のJelle Goemanが、チュートリアルの最後に、ペナルティ付き回帰モデルからの信頼区間に関する次のメモを示しました。

回帰係数または他の推定量の標準誤差を求めることは非常に自然な質問です。原則として、そのような標準誤差は、たとえばブートストラップを使用して簡単に計算できます。

それでも、このパッケージは意図的にそれらを提供していません。この理由は、ペナルティのある推定方法から生じるような、強く偏った推定では標準誤差はあまり意味がないためです。ペナルティ推定は、かなりのバイアスを導入することにより、推定量の分散を減らす手順です。したがって、各推定量のバイアスは平均二乗誤差の主要な要素ですが、その分散はわずかな部分しか寄与しない可能性があります。

残念ながら、ペナルティ付き回帰のほとんどのアプリケーションでは、バイアスの十分に正確な推定値を取得することは不可能です。ブートストラップベースの計算では、推定値の分散の評価しか提供できません。信頼できるバイアスの推定値は、信頼できるバイアスのない推定値が利用可能な場合にのみ利用可能です。これは、通常、罰則付きの推定値が使用される状況には当てはまりません。

したがって、罰せられた推定値の標準誤差を報告することは、ストーリーの一部のみを伝えます。バイアスによって引き起こされる不正確さを完全に無視して、非常に正確な誤った印象を与える可能性があります。ブートストラップベースの信頼区間のように、推定値の分散の評価のみに基づく信頼ステートメントを作成することは間違いです。


1
もちろん、R 2乗の推定値をすばやく取得する1つの方法は、元のデータから近似値を予測する線形モデルを近似し、そこからR 2乗を取得することです。しかし、これは、R乗の大規模なオーバーフィットとバイアスのある推定値のようです。
スティーブンターナー

私は近くの投稿で「類似の」質問をしているのでこれをコメントとして追加します(したがって、回答する資格があるかどうかはわかりません)が、特にあなたの質問では、R平方を計算する必要はありません分布の仮定(ただし、これらは通常の方法で仮説検定に必要です)。ホールドアウトセットを使用してr二乗を計算したり、十分なデータがない場合はk-fold検証を使用することはできません(各フォールドで完全なペナルティプロセスを実行し、各フォールドのrフィッティングで使用されますか?)
B_Miner

1
@ B_Miner、倍交差検証は、かなり偏った推定値を提供する傾向があります。これは、一般に真の関心量を推定していないためです。多くの(ほとんど?)同様の手順には同じ問題があります。R 2kR2
枢機

1
@スティーブン、本当にあなたが興味を持っている量ですか?ペナルティによって誘発されるバイアスのため、バイアスの非常に適切な推定値を既に持っていない限り、説明された分散だけを見るのはおそらく望ましくありません。を推論の基礎として使用するという考え方は、推定値の偏りがないことに基づいています。回帰に関する主要な教科書でさえ、これを「忘れる」ようです。(たとえば、重回帰のケースでのSeberとLeeののやや不完全な処理を参照してください。)R 2 R 2R2 R2R2
枢機

1
は通常の方法で定義でき、時には役立つと思います。標準誤差はバイアスを考慮していませんが、それらは「保守的な、ゼロに向かって縮小した」量の標準誤差です。それらはおそらく正式な推論に使用することはできませんが、使用すべきではないと結論付ける前に、さらに議論したいのです。R2
フランクハレル

回答:


4

与えられたJelleのコメントに対する私の最初の反応は、「バイアスシュミア」です。「大量の予測子」の意味に注意する必要があります。これは、次の点で「大きい」可能性があります。

  1. データポイントの数( "big p small n")
  2. 変数を調査する必要がある時間
  3. 巨大行列を反転させる計算コスト

私の反応は、ポイント1に関して「大」に基づいています。これは、この場合、通常、得られる分散の減少に対するバイアスのトレードオフの価値があるからです。バイアスは重要な「インザロングラン」のみです。それで、あなたが小さなサンプルを持っているなら、だれが「長期にわたる」ことを気にしているのでしょうか?

上記のことはすべて述べましたが、は、特に多くの変数がある場合(特に、が示すすべてのことです:多くの変数があるため)、計算するのに特に適切な量ではありません。クロス検証を使用して、「予測エラー」のようなものを計算します。R 2R2R2

理想的には、この「予測エラー」は、モデリング状況のコンテキストに基づいている必要があります。基本的に、「私のモデルはデータをどれだけうまく再現できますか?」という質問に答えたいと思います。あなたの状況の文脈は、現実の世界で「どれだけうまく」を意味するかをあなたに伝えることができるはずです。次に、これを何らかの数学的な方程式に変換する必要があります。

ただし、この質問から抜け出す明確な文脈はありません。したがって、「デフォルト」はPRESSのようなものになります Whereは、i番目のデータポイントなしで近似されたモデルの予測値です(はモデルパラメーターに影響しません)。合計内の用語は、「削除残差」とも呼ばれます。モデルの適合を行うには計算コストが高すぎる場合(ほとんどのプログラムは通常、標準出力でこのようなものを提供しますが)、データをグループ化することをお勧めします。したがって、を待つ準備をする時間を設定します。Y I - I Y I、Y I N T M G = Tを

PRESS==1NYY^2
Y^YYNT(できれば0 ^ _ ^ではない)、モデルに適合するのにかかる時間でこれを除算してください。これにより、サンプルサイズ合計再フィットが行われます。 方法各変数の重要性、つまり通常の回帰(同じ順序の変数)を再適合させることが重要です。次に、各推定量がゼロに向かってどれだけ縮小されたかを比例的に確認しますM Ng=N×MG=TMNg=N×MT
PRESS=g=1G=1NgYgY^gg2
βLASSOβうんNCONSTRANED。Lasso、およびその他の制約付き回帰は、「スムーズな変数選択」と見なすことができます。これは、バイナリの「インまたはアウト」アプローチを採用するのではなく、モデルの重要度に応じて各推定値がゼロに近づくためです(エラーによって測定されます)。

3
上記のように見えたのは、leave-one-outクロス検証と倍クロス検証の説明だけです。前者は、分散が大きく、通常は計算コストが大きいため、最近ではほとんど使用されません(一部の回帰設定は例外です)。影響に関する発言については、場合、一意の最小二乗推定値はなく、これは複雑です。また、パラメータ推定値の符号も異なる場合があります。私は肯定的ではありませんが、OLSの推定値が存在する場合でも、一部のパラメーターの比率がになる可能性があります。kp>n>1
枢機

1

RパッケージhdmとStataパッケージlassopackは、投げ縄の共同有意性テストをサポートしています。この理論により、予測子の数を観測数に比べて大きくすることができます。テストの背後にある理論とその適用方法については、hdmのドキュメントで簡単に説明されてます。要するに、それは理論主導の罰則の枠組みに基づいています(ベローニ、チェルノシュコフ、ハンセンなどによって開発されました)。この論文は、基礎となる理論についてもっと知りたい場合の良い出発点です。唯一の欠点は、テストが投げ縄と(平方根投げ縄)に対してのみ機能することです。他のペナルティ付き回帰方法ではありません。

Belloni、A.、Chen、D.、Chernozhukov、V. and Hansen、C.(2012)、Sparse Models and Methods for Optimal Instrument to Application with Eminent Domain。計量経済学、80:2369-2429。


論文の完全なリファレンスを追加してください(リンクが消滅する可能性があります)
アントワーヌ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.