エラスティックネット正則化とは何ですか?また、リッジ()とラッソ()の欠点をどのように解決しますか?


35

これらの方法の欠点を解決するように見えるので、Lasso&Ridgeよりもエラスティックネットの正則化が常に優先されますか?直感とは何ですか?エラスティックネットの背後にある数学は何ですか?


6
Hastie et al。をチェックしてください。「統計学習の要素」の第3章と第18章(「弾性ネット」を検索)。
リチャードハーディ

回答:


42

1.どちらの方法が好ましいですか?

はい。エラスティックネットは、両方の方法の制限を解決するとともに、それぞれを特別なケースとして含むため、投げ縄および隆起回帰よりも常に優先されます。したがって、リッジまたは投げ縄のソリューションが実際に最良である場合、優れたモデル選択ルーチンはそれをモデリングプロセスの一部として識別します。

私の投稿へのコメントは、エラスティックネットの利点は不適格ではないことを指摘しています。エラスティックネット回帰の一般性は、または正規化よりも望ましいと考えています。具体的には、自分と他の人との間の競合のポイントは、モデリングプロセスについてどのような前提を立てるかに直接関係していると思います。基礎となるデータに関する強力な知識がある場合、他の方法よりも好ましい方法があります。しかし、エラスティックネットに対する私の好みは、またはが真のモデルであることを自信を持って知っているという懐疑論に根ざしています。L1L2L1L2

  1. 主張:事前知識があれば、エラスティックネット回帰を使用する必要がなくなる可能性があります。

これはやや円形です。これがいくぶんglibであれば許してくれますが、LASSO(リッジ)が最適なソリューションであることがわかっている場合は、適切にモデル化する方法を自問しません。LASSO(リッジ)モデルに適合します。あなたがしている場合は絶対に必ず正解がLASSO(尾根)回帰であることを、あなたは明らかに弾性ネットを取り付ける時間を無駄にする理由はありませんと確信しています。しかし、LASSO(リッジ)が正しい方法であるかどうか少し確信が持てない場合は、より柔軟なモデルを推定し、データが以前の信念をどれだけ強力にサポートしているかを評価することは理にかなっていると思います。

  1. 主張:またはソリューションが真のモデルである場合でも、適度に大きいデータでは、またはソリューションを優先的に検出できません。L1L2L1L2

これも事実ですが、同様の理由で循環していると思います。最適なソリューションを推定し、を見つけた場合それはデータがサポートするモデルです。一方で、はい、あなたの推定モデルは真のモデルではありませんが、モデル推定の前に真のモデルが(または)であることをどのように知るのか疑問に思う必要があります。この種の予備知識を持っているドメインがあるかもしれませんが、私の専門的な仕事はそれらの1つではありません。α{01}α=1α=0

  1. 主張:追加のハイパーパラメーターを導入すると、モデルの推定の計算コストが増加します。

これは、時間とコンピューターの制約が厳しい場合にのみ関係します。それ以外の場合は、迷惑です。GLMNETは、エラスティックネットソリューションを推定するためのゴールドスタンダードアルゴリズムです。ユーザーはアルファの値を指定し、正則化ソリューションのパスプロパティを使用して、ペナルティの大きささまざまな値のモデルファミリをすばやく推定します。多くの場合、このソリューションファミリは推定よりも迅速に推定できます。特定の値に対する1つのソリューション。そのため、はい、GLMNETを使用するとグリッドスタイルのメソッドを使用するドメインに任せられます(いくつかの値を繰り返し、GLMNETにさまざまな試行させます)が、非常に高速です。λλαλ

  1. 主張:LASSOまたはリッジ回帰上のElastic Netのパフォーマンスの向上は保証されていません。

これは事実ですが、どの方法を使用するかを検討している段階では、弾性ネット、リッジ、またはLASSOのどれが最適かはわかりません。最良の解決策がLASSOまたはリッジ回帰でなければならない理由の1つであれば、クレーム(1)の領域にあります。どちらが最善かまだ不明な場合は、LASSO、リッジ、エラスティックネットソリューションをテストし、その時点で最終モデルを選択できます(または、アカデミックの場合は、3つすべてについて論文を書くだけです) )。事前の不確実性のこの状況は、真のモデルがLASSO / ridgeであるクレーム(2)の領域に私たちを配置しますが、事前にそのように知りませんでした。エラスティックネットは、実際には最適なソリューションです。

  1. 主張:相互検証なしのハイパーパラメーター選択は、非常に偏りがあり、エラーが発生しやすい

適切なモデル検証は、機械学習企業にとって不可欠な要素です。モデルの検証も通常は高価なステップなので、ここで非効率性を最小限に抑えようとします-それらの非効率性の1つが無駄であることが知られている値を不必要に試している場合、1つの提案がそうするかもしれません。はい、あなたはあなたのデータがどのように配置されているかについての強い声明に満足しているなら、必ずそうしますが、私たちは主張(1)と主張(2)の領域に戻っています。α

2.エラスティックネットの背後にある直感と数学は何ですか?

エラスティックネットの元の論文から始めて、これらの方法に関する文献を読むことを強くお勧めします。この論文は直感と数学を発展させ、非常に読みやすくなっています。ここでそれを再現することは、著者の説明を損なうだけです。しかし、高レベルの要約は、エラスティックネットはリッジと投げ縄のペナルティの凸和であるため、ガウス誤差モデルの目的関数は

残差二乗平均誤差+αリッジペナルティ+1αLASSOペナルティ

以下のためのα[01]

Hui ZouとTrevor Hastie。「正則化とエラスティックネットを介した変数の選択。」JR統計。Soc。、vol 67(2005)、Part 2.、pp。301-320。

リチャード・ハーディは、これがHastieらでより詳細に開発されていることを指摘しています。「統計学習の要素」第3章および第18章

3.ノルムを追加した場合はどうなりますか?Lq

これはコメントで私に提起された質問です:

エラスティックネットは、投げ縄や尾根だけよりも均一に優れているというあなたの観点に対するもう1つの議論を提案させてください。ハイパーパラメータを使用して、エラスティック正味コスト関数に別のペナルティ、たとえばコストを追加するとします。私はそれについて多くの研究があるとは思いませんが、3Dパラメーターグリッドで交差検証検索を行うと、最適値としてられると確信しています。もしそうなら、コストも含めることは常に良い考えだと主張しますか。L3γγ0L3

質問の精神が「あなたの主張通りであり、2つの罰則が良い場合、別の罰則を追加してみませんか?」しかし、そもそも正則化する理由に答えがあると思います。

L1正則化はスパースソリューションを生成する傾向がありますが、結果と最も強く相関する特徴を選択し、残りをゼロにする傾向もあります。さらに、観測値を持つデータセットでは、最大特徴を選択できます。正則化は、高度に(または完全に)相関する特徴から生じる不適切な問題に対処するのに適しています。特徴を持つデータセットでは、正則化を使用して、場合にモデルを一意に識別できます。nnL2pL2p>n

これらの問題のいずれかは別として、推定器の収縮特性は「悲観的」であり、係数を0に引くため、正則化モデルはMLモデルよりも優れています。

しかし、私は正則化の統計的性質を知りません。私が取り組んだ問題では、一般に、相関性の低い特徴(データによって裏付けられていない仮説)と共線的特徴の両方の問題に直面しています。L3

実際、パラメーターでのおよびペナルティーが通常使用される唯一のペナルティーであるという説得力のある理由があります。L1L2

なぜと正則化のみが表示され、他の規範は表示されないのですか?」L1L2、@ whuberはこのコメントを提供しています:

私は特にこの問題を調査していませんが、似たような状況での経験は、素敵な定性的な答えがあるかもしれない示唆:そのうち、お互いに局部的に等しくなる原点で微分秒であるすべての規範ノルムが標準です。他のすべての規範は原点で微分可能ではなく、それらの動作を定性的に再現します。それは色域をカバーしています。実際には、ノルムとノルムの線形結合は、任意のノルムを原点で2次に近似します。これが、残差を逸脱しない回帰で最も重要なことです。L2L1L1L2

我々は、効果的可能性によって提供することができるオプションの範囲をカバーすることができるようにの組合せとして規範及びの追加のハイパーチューニングを必要とせずに、すべての-ノルムを。LqL1L2


4
「なげなわとリッジの回帰よりも常に弾性ネットが好ましい」と言うのは、少し強すぎるかもしれません。小規模または中規模のサンプルでは、​​前者または後者が実際に関連する場合でも、エラスティックネットは純粋なLASSOまたは純粋なリッジソリューションを選択しない場合があります。強力な事前知識があれば、エラスティックネットの代わりにLASSOまたはリッジを選択することは理にかなっています。ただし、事前の知識がない場合、エラスティックネットが推奨されるソリューションです。
リチャードハーディ

4
私は異議を唱えなければなりません:別のハイパーパラメーターとしてを導入することは、設定または調整する必要があることを意味し、パフォーマンスの向上は保証されません- 相互検証以外のハイパーパラメーターの調整はどれほど悪いですか?α
Scortchi -復活モニカ

7
+1を詳細に説明しますが、エラスティックネットは投げ縄または隆起のみよりも均一に優れているというあなたの観点に対するもう1つの議論を提案します。ハイパーパラメータを使用して、エラスティック正味コスト関数に別のペナルティ、たとえばL3コストを追加するとします。私はそれについて多くの研究があるとは思いませんが、3dパラメータグリッドで交差検証検索を行うと、最適な値としてが得られると確信しています。もしそうなら、L3コストも含めることは常に良い考えだと主張しますか?γγ0
アメーバは、Reinstate Monica

5
@amoebaの質問は非常に巧妙で、それに答えることで、あなたの基準はいくらか変わったように思えます。とが最適であると確信できない限り、適用する量をデータに決定させてはどうでしょうか。あなたの議論はまだ少し強すぎるようで、ほとんどどんな状況でも(ハイパー)パラメーターを追加することを正当化するように見えます。L1L2L3
Scortchi-モニカの復職

3
「LASSO、リッジ、およびエラスティックネットソリューションをテストし、最終モデルを選択できます」-もちろん、それ自体が新しい手順であり、ランダムエラーの基準を最適化します。 LASSo、またはリッジ回帰、または弾性ネット単独よりも。
Scortchi-モニカの復職

11

私は一般的に@Sycoraxの回答に同意しますが、資格を追加したいと思います。

「なげなわとリッジの回帰よりも常に弾性ネットが好ましい」と言うのは、少し強すぎるかもしれません。小規模または中規模のサンプルでは、​​前者または後者が実際に関連するものであっても、エラスティックネットは純粋なLASSOまたは純粋なリッジソリューションを選択しない場合があります。強力な事前知識があれば、エラスティックネットの代わりにLASSOまたはリッジを選択することは理にかなっています。ただし、事前の知識がない場合、エラスティックネットが推奨されるソリューションである必要があります。

また、LASSOとリッジの相対的な重みをクロス検証を使用して選択する必要があるため、エラスティックネットはLASSOまたはリッジよりも計算上高価です。アルファ値の合理的なグリッドが0.1のステップサイズで[0,1]である場合、弾性ネットはLASSOまたはリッジの約11倍の計算コストを意味します。(LASSOとリッジの計算の複雑さはまったく同じではないため、結果は大まかな推測にすぎません。)


1
または、実際にLASSOまたはリッジ回帰では、ペナルティのない回帰よりも予測パフォーマンスが向上しない場合があります。
Scortchi -復活モニカ

4
どのような種類の事前知識があるとLassoが優先され、どのような種類の事前知識があるとリッジが優先されますか?
アメーバは、モニカを復活させる

4
@amoeba、すべてのリグレッサが関連している可能性が高いが、それらが高度に相関している場合、変数選択は不要であり、したがってリッジが優先される可能性があります。一方、一部のリグレッサーが完全に無関係である可能性が高い場合(ただし、どのリグレッサーがわからないのか)、変数の選択が必要であり、LASSOが優先される可能性があります。この知識は、主題分野から取得されます。Hastie et al。にいくつかの例があるかもしれないと思います。「統計学習の要素」または関連文献では、どこでそれを読んだか覚えていない。
リチャードハーディ

1
@kjetilbhalvorsen、ありがとう、助かりました。
リチャードハーディ

1
@ amoeba、L2は入力に対して多くの小さな重み(平均化)を促進する相関データに適しています1つのvarが他の古典的なケースである階層データである場合、係数が階層の最高レベルで推定される必要があります。
seanv507
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.