なげなわが機能選択に対して不安定になる原因は何ですか?


12

圧縮センシングでは、 が一意のスパースソリューションcを持つという定理が保証され (詳細は付録を参照)。

argminc1subject to y=Xc
c

投げ縄に同様の定理はありますか?そのような定理がある場合は、投げ縄の安定性を保証するだけでなく、投げ縄にさらに意味のある解釈を提供します。

lassoは、y = Xcによって応答yを生成するために使用されるスパース回帰係数ベクトルcを明らかにできます。yy=Xc

この質問をする理由は2つあります。

  1. 「lassoはスパースソリューションを優先する」とは、選択した機能の利点が何であるかさえわからないため、機能選択にlassoを使用する理由に対する答えではないと思います。

  2. なげなわは機能選択が不安定であることで有名です。実際には、その安定性を評価するためにブートストラップサンプルを実行する必要があります。この不安定性を引き起こす最も重要な理由は何ですか?


付録:

X_ {N \ times M} =(x_1、\ cdots、x_M)が与えられXN×M=(x1,,xM)ます。cΩ -sparse vector(ΩM)です。プロセスy=Xcは応答yを生成しyます。場合XオーダーのNSP(ヌル空間プロパティ)を有するΩとの共分散行列Xゼロへの固有値近いを持っていない、に固有のソリューションが存在することになる

argminc1subject to y=Xc
これは正確にyを与えるcです。y

この定理が伝えていることは、が次数 NSPを持たない場合でも、を解くことはできません。XΩargminc:y=Xcc1


編集:

これらの素晴らしい答えを受け取った後、私はこの質問をしているときに混乱していることに気付きました。

この質問が混乱する理由:

私は、デザインマトリックスがいくつのフィーチャ(列)を持つかを決定する必要がある研究論文を読みました(補助フィーチャは主フィーチャから作成されます)。これは典型的な問題であるため、は適切に構築され、ラッソの解が実際のスパース解の良い近似になることが期待されます。XN×Mn<pD

推論は、付録で述べた定理に基づいて行われます。 -sparse solutionを見つけることを目的とする場合、は、次数が NSPである方が適切です。ΩcXΩ

一般的な行列の場合、に違反すると、N×MN>CΩlnM

とからのの安定したロバストな回復は不可能cDP

Dはに対応し、は対応しますXPy

...関係から予想されるように、記述子の選択はより不安定になります。つまり、異なるトレーニングセットの場合、選択された記述子はしばしば異なります...N=CΩlnM

2番目の引用は私を混乱させる部分です。不平等が破られたとき、それはおそらく一意ではない解決策かもしれない(言及されていない)だけでなく、記述子もより不安定になります。


2
前後関係のために、Qの最初に書き留めた最適化問題は、「基礎追跡」と呼ばれます。等式を近似等式(あるL2エラーまで)で置き換えると、「基底追跡ノイズ除去」と呼ばれます。基底追跡のノイズ除去は、数学的にはなげなわと同等です。y=XcyXc
アメーバはモニカを復活させると言う

ここにある便利なスライドのセット(簡単なものではありません):pages.iu.edu/~dajmcdon/research/talks/lasso.pdfと無料のランチ定理users.ece.utexas.edu/~cmcaram/pubs/ XuCaramanisMannor.NFL.pdf
Xavier Bourret Sicotte 2018

あなたが引用する定理は一意性に関するものです。一意性は必ずしも安定性に関連しているわけではないため、質問は混乱を招きます。
アメーバはモニカを復活させると言う

2
はい、私はOPがやや混乱しており、質問が明確ではないため、考えられる答えが異なると考えています...一意性は、単一のデータポイントセット、安定性は相互検証、またはブートストラップ、または新しいデータポイントに適用されます
Xavier Bourret Sicotte

回答:


7

更新

リスクの一貫性の概念が安定性に関連しているという私の答えに対するマクドナルドのフィードバックについては、この2番目の投稿を参照してください。


1)一意性と安定性

独自性安定性という 2つの非常に異なるトピックについて言及しているため、質問に答えるのは困難です。

  • 直感的に、固定データセットが与えられた場合のソリューションは一意であり、アルゴリズムは常に同じ結果を生成します。マーティンの回答はこの点を非常に詳細にカバーしています。

  • 一方、安定性は、トレーニングデータをわずかに変更しても予測があまり変化しないものとして直感的に理解できます。

Lasso機能の選択は(多くの場合)相互検証を介して実行されるため、安定性が質問に適用されます。したがって、Lassoアルゴリズムはデータの異なる分割で実行され、毎回異なる結果をもたらす可能性があります。

安定性と無料ランチなしの定理

均一安定性を次のように定義する場合、ここからの定義を使用します。

アルゴリズムは、以下が成立する場合、損失関数に関して均一な安定性を持ちます。βV

SZm  i{1,...,m},  sup|>V(fs,z)V(fS|i,z)|  β

関数と考えると、という用語はと書くことができます 。がとして減少する とき、アルゴリズムは安定していると言います。mββmβm1m

次に、「無料の昼食なしの定理、徐とカラミス(2012)」は、

アルゴリズムがスパースである場合、冗長な特徴を特定するという意味では、そのアルゴリズムは安定していません(そして、一様安定性境界はゼロになりません)。[...]アルゴリズムが安定している場合、それがまばらになることはありません。(3ページと4ページ)β

たとえば、正則化回帰は安定しており、冗長な特徴を識別しませんが、正則化回帰(投げ縄)は不安定です。 L2L1

あなたの質問に答える試み

「ラッソがスパースソリューションを支持する」とは、機能選択にラッソを使用する理由に対する答えではないと思います

  • Lassoが機能選択に使用される理由は、私が同意しないことです。これは、Lassoがスパースソリューションを生成し、IRFプロパティを持っていることを示すことができるためです。

この不安定さを引き起こす最も重要な理由は何ですか

  • 無料のランチの定理

もっと遠く行く

これは、相互検証とLassoの組み合わせが機能しないと言っているのではありません...実際、さまざまな条件下で非常にうまく機能することが実験的に(そして多くの支持理論とともに)示されています。ここでの主なキーワードは、一貫性、リスク、オラクルの不等式です。

:マクドナルドとHomrighausen(2013)によって、次のスライドと紙がなげなわ特徴選択がうまく機能しているの下にいくつかの条件を記述したスライドと紙:「投げ縄、持続性、及びクロスバリデーション、マクドナルドとHomrighausen(2013)」。Tibshirani自身も、sparcity線形回帰に関する素晴らしいノートを投稿しました

一貫性のためのさまざまな条件と、それらがLassoに与える影響は、活発な研究テーマであり、簡単な問題ではありません。関連するいくつかの研究論文を紹介します。


1
包括的な回答ありがとうございます!あなたが提供するスライドのセットはまさに素晴らしいです!
meTchaikovsky 2018

1
私はまだこの安定性の定義を処理しようとしています。私の翻訳することである「クロスバリデーション除外のいずれかでエラー/損失関数の変化は上限がある場合、アルゴリズムは安定であるにつれて減少場合、我々は数を増やします」 folds / test-sets "β1m、私はそれが正しいことを願っています。なげなわをうまく機能させるために、なぜそれが望ましいプロパティであるのか疑問に思います(より正確には、それが必要なプロパティであるかどうか疑問に思います)
Sextus Empiricus

1
はい、ただしmはデータポイントの数です。確率的な限界については、こちらのページ7を参照してください。math.arizona.edu/〜hzhang / math574m / Read / LOOtheory.pdf –データセットのサイズを大きくしても、安定性に限界がないため、アルゴリズムがジャンプする可能性があります。特定のデータセットに応じて、遠く離れた仮説が機能する。これが、基礎となる分布と相関構造に関連する代替条件が提案されている理由です(私はそう思います)-それらをより明確にするために助けが必要になります
Xavier Bourret Sicotte 2018

もう一つの重要な概念は、そのことをある一貫性:例えば、ここで説明したようにstat.ethz.ch/~nicolai/stability.pdf -安定性と一貫性がリンクされているかは不明であるが、活発な研究などのテーマであるように思わcbcl.mit.edu/publications /ps/mukherjee-AImemoOctNov.pdf
Xavier Bourret Sicotte 2018

いい答え!将来的にリンク自体が機能しなくなった場合に備えて、一部のリンクをより詳細な説明で更新してもらえますか?(私はすでにあなたのために1つやりました。)
Richard Hardy

7

ダニエルJ.マクドナルドからのコメント

Xavier Bourret Sicotteからの最初の返答で言及された2つの論文の著者であるインディアナ大学ブルーミントンの助教授

あなたの説明は、一般的に、かなり正しいです。私が指摘するいくつかのこと:

  1. CVと投げ縄に関する一連の論文の目標は、「投げ縄+交差検証(CV)」「投げ縄+最適な」λと同様に機能することを証明することでした。特に、予測が同じように機能することを示したかった(モデルフリー)。係数の正しい回復(適切な非スパースなものを見つける)について説明するには、スパースな真理を仮定する必要がありますが、これは私たちがしたくありませんでした。

  2. アルゴリズムの安定性はリスクの一貫性を意味します(最初にBousquetとElisseeffによって証明されたと思います)。リスクの一貫性とは、fがであるか、クラスが誤って指定されている場合は、あるクラス内の最良の予測子である場合、ゼロになります。ただし、これは十分条件です。リンク先のスライドでは、本質的に「なげなわが安定していないため機能しない可能性のある証明手法」として言及されています。||f^(X)f(X)||E[Y|X]

  3. 安定性は十分なだけですが、必要ではありません。ある条件下では、「lasso + CV」は「lasso + optimal」と同様に予測することを示すことができました。あなたが引用した論文は、最も弱い仮定(スライド16のを可能にするもの)を示していますが、より一般的なラグランジュバージョンではなく、拘束形式の投げ縄を使用しています。別の論文(http://www3.stat.sinica.edu.tw/statistica/J27N3/J27N34/J27N34.html)は、ラグランジアンバージョンを使用しています。また、はるかに強い条件下では、モデルの選択も機能することを示しています。他の人々によるより最近の論文(https://arxiv.org/abs/1605.02214)は、これらの結果を改善すると主張しています(私は注意深く読んでいません)。λp>n

  4. 一般的に、投げ縄(または任意の選択アルゴリズム)は安定していないため、「アルゴリズム+ CV」が正しいモデルを選択することを示すには、より慎重な分析や強力な仮定が必要です。これは一般的に非常に興味深いことですが、私は必要な条件を知りません。固定ラムダの場合、投げ縄予測子はローカルにベクトルリプシッツであることを示すのはそれほど難しくありません(Ryan Tibshiraniの論文の1つ以上がこれを行っていると思います)。これがにも当てはまると主張することができれば、これは非常に興味深いものであり、ここでも関係があります。YXi

私があなたの回答に追加する主な要点:「安定性」は「リスク一貫性」または「予測精度」を意味します。また、より多くの仮定の下で「パラメータ推定一貫性」を意味することもあります。しかし、自由ランチの定理は「選択」を意味します「不安定」です。Lassoは固定ラムダを使用しても安定しません。したがって、CV(任意のタイプの)と組み合わせると確実に不安定になります。ただし、安定性の欠如にもかかわらず、一貫性のある、またはないリスク一貫性のある選択です。 CV。一意性はここでは重要ではありません。


5

ラッソは、リッジ回帰とは異なり(たとえば、Hoerl and Kennard、1970; Hastie et al。、2009を参照)、通常は常に一意の解決策があるわけではありません。これは、モデル内のパラメーターの数、変数が連続か離散か、および設計行列のランクに依存します。一意性の条件は、Tibshirani(2013)にあります。

参照:

Hastie、T.、Tibshirani、R.、およびFriedman、J.(2009)。統計学習の要素。統計のスプリンガーシリーズ。スプリンガー、ニューヨーク、第11版、第2版。

エール、AE、およびケナード、RW(1970)。リッジ回帰:非直交問題のバイアス推定。テクノメトリクス、12(1)、55-67。

Tibshirani、RJ(2013)。投げ縄の問題と一意性。統計の電子ジャーナル、7、1456-1490。


@ ありがとうございました!あなたが提供するそれらの参照の簡単な要約を追加できますか?
meTchaikovsky 2018

ハサイトら (2009)は、それらの間のなげなわとリッジ回帰の多くのトピックをカバーする本です。:それはAの読み取りだけでなく価値があるとHastieのホームページからダウンロードすることができますweb.stanford.edu/~hastie/ElemStatLearn/download.html 、直接あなたの質問に関連する他のことをHoerl&ケナード(1970)は、古典的なリッジ回帰参照であり、そうではありませんリッジ回帰について読むよりも。Tibshirani(2013)には、なげなわが一意の解を持つ場合(および解が無限の場合)に関する情報が含まれています。
Phil

3

非一意性の原因。

ベクトル(ここでは、の変化がを増加または減少させるかどうかを示す記号)で、それらがアフィンに依存しているときはいつでも:sixisicic1

αisixi=0andαi=0

次に、解とノルム変更しない無限の組み合わせがあります。ci+γαiXcc1

例えば:

y=[11]=[210111][c1c2c3]=Xc

以下のために持っているソリューション:c1=1

[c1c2c3]=[010]+γ[121]

0γ12

を使用して、ベクトルを置き換えることができます。x2x2=0.5x1+0.5x3


この状態のない状況

Tibshiraniからの記事(Philの回答から)では、lassoが独自のソリューションを持つための3つの十分な条件が説明されています。

  1. 線形独立ヌルスペースがヌルの場合、または同等にのランクが列数(M)に等しい場合。その場合、上記のような線形結合はありません。XX
  2. 列が一般的な位置にある場合は、アフィン的に独立しています。Xs

    つまり、次元平面の点を表す列はありません。k-2次元平面は、として任意の点によってパラメーター化できます。では番目のポイント この同一平面上にあなたが条件だろうとkk2k1αisixiαi=1ksjxjαisixiαi=0

    この例では、列、およびが1行にあることに注意してください。(ただし、符号が負になる可能性があるため、ここでは少し厄介です。たとえば、行列はちょうど同様にユニークなソリューションはありません)x1x2x3[[21][11][01]]

  3. 列のとき連続分布からのもの、それはあなたがの列がありますことを(確率はほぼゼロ)そうである一般的な位置ではありません。XX

    これとは対照的に、列がカテゴリ変数である場合、この確率は必ずしもほぼゼロではありません。連続変数がいくつかの数値セット(つまり、他のベクトルのアフィンスパンに対応する平面)と等しくなる確率は、「ほぼ」ゼロです。しかし、これは離散変数には当てはまりません。X


+1しかし、最近のディスカッションで不安定とは、相関する機能が存在する場合の相互検証による機能の選択に関連していると思います
Xavier Bourret Sicotte

@XavierBourretSicotteユニークなソリューションが存在する場合でも、相関機能がそのユニークなソリューションを(数値的に)見つけることに問題を追加するため、選択プロセスが不安定になる可能性があることを意味しますか?質問は一方では安定性について、もう一方では一意性について尋ねられるため、少し混乱します。
Sextus Empiricus 2018

はい、それは私が意味していることです。必ずしも数値の不安定性のためではなく、データのフォールド(CV中)に固有の違いがあるため、フォールド全体で異なる値の異なるソリューションが発生します。ブートストラップ時にさらに悪化する可能性λ
Xavier Bourret Sicotte 2018

@XavierBourretSicotte現在、これ(さまざまなおよびトレーニングセットのさまざまなソリューション)が不安定であると思われる理由を明確に直感的に理解することはできません。これを回答として投稿して説明できると思います。λ
Sextus Empiricus

@Martijn Weteringsありがとうございます!まだ3つの質問があります。1.依存関係をどのように検出しますか?が独立しているかどうかを確認する必要がありますか(math.stackexchange.com/q/82189)?2. 実際にを決定するにはどうすればよいですか?3.「一般的な位置」とはどういう意味ですか?{v1v0,v2v0,,vkv0}siX
meTchaikovsky 2018
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.