収縮法はどのような問題を解決しますか?


61

ホリデーシーズンは、統計学習の要素で火のそばで丸まる機会を私に与えました。(頻度論)計量経済学の観点から言えば、リッジ回帰、なげなわ、最小角度回帰(LAR)などの収縮方法の使用法を把握するのに苦労しています。通常、パラメーターの推定自体と、不偏性または少なくとも一貫性の達成に興味があります。収縮方法はそれを行いません。

統計学者が回帰関数が予測子に反応しすぎると心配しているときにこれらの方法が使用されているように思われ、予測子が実際よりも重要であると考えられます(係数の大きさで測定)。言い換えれば、過剰適合です。

しかし、OLSは通常、公平で一貫した推定値を提供します。(脚注)選択プロセスが考慮されていないため、推定値が大きすぎるのではなく、信頼区間が小さすぎるという過適合の問題を常に見てきました( ESLはこの後者の点に言及しています)。

偏りのない/一貫した係数推定は、結果の公平で一貫した予測につながります。収縮法は、OLSよりも予測を平均結果に近づけ、一見情報をテーブルに残します。

繰り返しますが、収縮方法が解決しようとしている問題はわかりません。何か不足していますか?

脚注:係数を識別するには、完全な列ランク条件が必要です。誤差の外因性/ゼロ条件付き平均仮定と線形条件付き期待仮定は、係数に与えることができる解釈を決定しますが、これらの仮定が正しくない場合でも、偏りのない一貫した推定値を取得します。


1
ここにはいくつかの関連する質問があります。:これは、1つであるstats.stackexchange.com/questions/10478/...
カーディナル

2
パラメーターの一貫性を達成するための収縮パラメーターの選択には、単純でかなり弱い条件があることに注意してください。これは有名なKnight&Fu(2000)の論文で詳述されており、リッジ回帰と投げ縄をはるかに超えるケースをカバーしています。モデル選択の一貫性も、ここ数年で人気のあるトピックになりました。
枢機卿

@cardinal、投げ縄のモデル一貫性結果へのポインタに感謝します。ちょっと見てみます。もちろん、これらの結果はOLSでも確認できます。結果は、両方の手順が同じ場所に到達することを意味します。そのため、なぜOLSではなくなげなわを使用するのか理解できません。
チャーリー

1
モデルの一貫性は、パラメータ推定の漸近的一貫性とは異なる概念です。この違いに気づいていますか?
枢機

@cardinal、モデルの一貫性により、正しい予測子が含まれることを意味すると思います。これは、OLSを使用した選択プロセスでAIC基準を使用して取得できます。限界では、投げ縄は「間違った」係数で正しいモデルを選択することを意味していると思いますか?
チャーリー

回答:


47

あなたはより深い答えが欲しいと思うので、他の誰かにそれを提供させなければなりませんが、私はあなたにゆるい概念的な観点から尾根回帰についていくつかの考えを与えることができます。

OLS回帰により、偏りのないパラメータ推定値が得られます(つまり、そのようなサンプルが収集され、パラメータが無期限に推定される場合、パラメータ推定値のサンプリング分布は真の値に集中します)。さらに、サンプリング分布は、可能なすべての不偏推定値の分散が最小になります(これは、平均して、OLSパラメーター推定値が他の不偏推定手順の推定値よりも真の値に近くなることを意味します)。これは古いニュースです(申し訳ありませんが、このことをよく知っています)、しかし、分散が低いという事実は、それがひどく低いという意味ではありません。状況によっては、サンプリング分布の分散が非常に大きくなるため、OLS推定器は本質的に価値がなくなります。(これが発生する可能性のある状況の1つは、高度な多重共線性がある場合です。)

そのような状況で何をすべきか?さて、より低い分散を持つ別の推定量を見つけることができます(明らかに、上で規定されたものを考えると、それはバイアスされなければなりません)。つまり、不偏性と低分散のトレードオフです。たとえば、おそらく真の値より少し下ではありますが、真の値に実質的に近いと思われるパラメータ推定値を取得します。このトレードオフが価値があるかどうかは、アナリストがこの状況に直面したときに下さなければならない判断です。とにかく、リッジ回帰はまさにそのようなテクニックです。次の(完全に作成された)図は、これらのアイデアを説明するためのものです。

ここに画像の説明を入力してください

これは、リッジ回帰の簡単で概念的な概要を提供します。投げ縄とLARについてはあまり知りませんが、同じ考えを適用できると思います。投げ縄と少なくとも角度回帰の詳細については見つけることができるここでは、「簡単に説明...」リンクは特に便利です。 これにより、収縮方法に関するより多くの情報が提供されます。

これが何らかの価値があることを願っています。


12
これにより、概念的なヒントが得られます。2番目の段落では、公平性に重点を置いていますが、重要な注意事項がありません。(a)線形モデルが「正しい」場合(そして、いつですか?)、および(b)すべての関連する予測変数がモデルに含まれていない限り、係数推定値は一般にバイアスされます。
枢機

5
バイアス/分散トレードオフの私の限られた理解は、説明を探している人(おそらく元のポスター)は、分散が大きい場合でも不偏性を好むが、予測をする人は、たとえバイアスがあったとしても、分散が小さいものを好むかもしれないということです紹介されています。
ウェイン

2
@ウェイン:確かに、これは問題の核心です。ESLの視点の多くは予測の観点から来ているため、これは分析の大部分を彩ります。特に観測設定において、単一の係数で推論を実行することは非常に滑りやすい問題です。係数の推定値が真に「不偏」であると主張するには、いくつかの重大な説得力が必要です。
枢機

1
少し時間が経てば、私はもう既に膨大なコメントを少し増やしてみようと思うかもしれません。
枢機

@gung、ここであなたが興味を持つであろう関連のメタスレッドです。
リチャード・ハーディ

16

推定量の誤差は、(二乗)バイアス成分と分散成分の組み合わせです。ただし、実際にはモデルを特定のデータの有限サンプルに適合させ、サンプルの母集団全体で平均ゼロエラーではなく、実際にある特定のデータサンプルで評価される推定量の合計エラーを最小化したい(私たちにはないこと)。したがって、誤差を最小限に抑えるために、バイアスと分散の両方を減らしたいと思います。これは、多くの場合、不偏性を犠牲にして分散成分を大幅に削減することを意味します。これは、分散が大きい可能性が高い小さなデータセットを扱う場合に特に当てはまります。

フォーカスの違いは、プロシージャのプロパティに興味があるかどうか、または特定のサンプルで最高の結果を得るかどうかに依存すると思います。頻度の高い人は通常、前者の方がそのフレームワーク内で扱いやすいと感じています。ベイジアンはしばしば後者に焦点を合わせています。


9

適用可能ないくつかの答えがあると思います:

  • リッジ回帰は、予測変数の行列が完全な列ランクでない場合に識別を提供できます。
  • LassoとLARは、予測子の数が観測値の数(非特異な問題の別の変形)より大きい場合に使用できます。
  • LassoとLARは自動変数選択アルゴリズムです。

リッジ回帰に関する最初のポイントが実際に機能であるかどうかはわかりません。身元不明の問題に対処するためにモデルを変更したいと思います。モデリングを変更しなくても、OLSはこの場合の結果の一意の(公平で一貫した)予測を提供します。

2番目のポイントがどのように役立つかはわかりましたが、偏りのない一貫した推定値を生成しながら、観測数を超えるパラメーター数の場合にも前方選択が機能します。

最後のポイントでは、例としての前方/後方選択は簡単に自動化されます。

だから、私はまだ本当の利点を見ていません。


6
いくつかの発言は:(1)OLS推定値はありません予測子の行列がフルランクでない場合にユニーク。(2)一貫性は漸近概念であるため、一連の推定量が必要です。つまり、検討しているシーケンスのタイプを定義する必要があり、関心のある成長のタイプ重要です。(3)一貫性には複数のタイプがあり、それらの違いを理解することは実例となります。趙&ユー(2006)紙は、素敵な議論があります。(4)不偏は過大評価されています。
枢機

1
5Hoerl&Kennard(1970)のリッジ回帰の元々の動機は、悪条件の設計行列を処理することでした。
枢機

1
@ cardinal、re。(1):申し訳ありませんが、係数の推定値ではなく、結果の予測を意味しました。
チャーリー

1
ああ、わかった。それは質問の脚注でより良く二乗します。
枢機

ここでは上記のコメントのように、趙&ユー(2006)の公に利用可能なバージョンへのリンクです。
リチャードハーディ

4

ここに生物統計学からの基本的な応用例があります

卵巣癌の存在と遺伝子のセットとの関係を研究していると仮定しましょう。

私の従属変数はバイナリ(ゼロまたは1としてコード化)です。私の独立変数はプロテオミクスデータベースからのデータをコード化します。

多くの遺伝学研究で一般的であるように、私のデータは背が高いよりもはるかに広いです。216種類の観測値がありますが、予測値は4000程度です。

線形回帰は正解です(システムの決定は恐ろしいです)。

機能選択技術は実際には実行できません。4,000以上の異なる独立変数を使用すると、すべての可能なサブセット手法は完全に問題外になり、シーケンシャルな機能選択でさえ疑わしくなります。

最適なオプションは、おそらくエラスティックネットでロジスティック回帰を使用することです。

機能選択を行いたい(どの独立変数が重要かを特定する)ので、リッジ回帰は実際には適切ではありません。

重要な影響を与える216を超える独立変数が存在する可能性が完全にあるため、おそらく投げ縄を使用するべきではありません(投げ縄は観測値よりも多くの予測変数を識別できません)...

弾性ネットを入力してください...


1
あなたが述べたような状況に対処する教科書を提供できますか?
Qbik

0

線形回帰収縮法で対処できる別の問題は、観測データの高次元症例対照研究で平均治療効果(ATE)の低分散(おそらく不偏)推定値を取得することです。

具体的には、1)多数の変数が存在する場合(完全に一致する変数を選択するのが難しくなる)、2)傾向スコアの一致が治療および対照サンプルの不均衡を解消できず、3)多重共線性が存在する場合漸近的に不偏の推定値を取得する適応型投げ縄(Zou、2006)などのいくつかの手法があります。原因推論に投げ縄回帰を使用し、係数推定値に信頼区間を生成することを議論した論文がいくつかあります(変数選択に投げ縄を使用した後の推論を参照)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.