これらの方法の欠点を解決するように見えるので、Lasso&Ridgeよりもエラスティックネットの正則化が常に優先されますか?直感とは何ですか?エラスティックネットの背後にある数学は何ですか?
これらの方法の欠点を解決するように見えるので、Lasso&Ridgeよりもエラスティックネットの正則化が常に優先されますか?直感とは何ですか?エラスティックネットの背後にある数学は何ですか?
回答:
はい。エラスティックネットは、両方の方法の制限を解決するとともに、それぞれを特別なケースとして含むため、投げ縄および隆起回帰よりも常に優先されます。したがって、リッジまたは投げ縄のソリューションが実際に最良である場合、優れたモデル選択ルーチンはそれをモデリングプロセスの一部として識別します。
私の投稿へのコメントは、エラスティックネットの利点は不適格ではないことを指摘しています。エラスティックネット回帰の一般性は、または正規化よりも望ましいと考えています。具体的には、自分と他の人との間の競合のポイントは、モデリングプロセスについてどのような前提を立てるかに直接関係していると思います。基礎となるデータに関する強力な知識がある場合、他の方法よりも好ましい方法があります。しかし、エラスティックネットに対する私の好みは、またはが真のモデルであることを自信を持って知っているという懐疑論に根ざしています。
これはやや円形です。これがいくぶんglibであれば許してくれますが、LASSO(リッジ)が最適なソリューションであることがわかっている場合は、適切にモデル化する方法を自問しません。LASSO(リッジ)モデルに適合します。あなたがしている場合は絶対に必ず正解がLASSO(尾根)回帰であることを、あなたは明らかに弾性ネットを取り付ける時間を無駄にする理由はありませんと確信しています。しかし、LASSO(リッジ)が正しい方法であるかどうか少し確信が持てない場合は、より柔軟なモデルを推定し、データが以前の信念をどれだけ強力にサポートしているかを評価することは理にかなっていると思います。
これも事実ですが、同様の理由で循環していると思います。最適なソリューションを推定し、を見つけた場合それはデータがサポートするモデルです。一方で、はい、あなたの推定モデルは真のモデルではありませんが、モデル推定の前に真のモデルが(または)であることをどのように知るのか疑問に思う必要があります。この種の予備知識を持っているドメインがあるかもしれませんが、私の専門的な仕事はそれらの1つではありません。
これは、時間とコンピューターの制約が厳しい場合にのみ関係します。それ以外の場合は、迷惑です。GLMNETは、エラスティックネットソリューションを推定するためのゴールドスタンダードアルゴリズムです。ユーザーはアルファの値を指定し、正則化ソリューションのパスプロパティを使用して、ペナルティの大きささまざまな値のモデルファミリをすばやく推定します。多くの場合、このソリューションファミリは推定よりも迅速に推定できます。特定の値に対する1つのソリューション。そのため、はい、GLMNETを使用するとグリッドスタイルのメソッドを使用するドメインに任せられます(いくつかの値を繰り返し、GLMNETにさまざまな試行させます)が、非常に高速です。
これは事実ですが、どの方法を使用するかを検討している段階では、弾性ネット、リッジ、またはLASSOのどれが最適かはわかりません。最良の解決策がLASSOまたはリッジ回帰でなければならない理由の1つであれば、クレーム(1)の領域にあります。どちらが最善かまだ不明な場合は、LASSO、リッジ、エラスティックネットソリューションをテストし、その時点で最終モデルを選択できます(または、アカデミックの場合は、3つすべてについて論文を書くだけです) )。事前の不確実性のこの状況は、真のモデルがLASSO / ridgeであるクレーム(2)の領域に私たちを配置しますが、事前にそのように知りませんでした。エラスティックネットは、実際には最適なソリューションです。
適切なモデル検証は、機械学習企業にとって不可欠な要素です。モデルの検証も通常は高価なステップなので、ここで非効率性を最小限に抑えようとします-それらの非効率性の1つが無駄であることが知られている値を不必要に試している場合、1つの提案がそうするかもしれません。はい、あなたはあなたのデータがどのように配置されているかについての強い声明に満足しているなら、必ずそうしますが、私たちは主張(1)と主張(2)の領域に戻っています。
エラスティックネットの元の論文から始めて、これらの方法に関する文献を読むことを強くお勧めします。この論文は直感と数学を発展させ、非常に読みやすくなっています。ここでそれを再現することは、著者の説明を損なうだけです。しかし、高レベルの要約は、エラスティックネットはリッジと投げ縄のペナルティの凸和であるため、ガウス誤差モデルの目的関数は
以下のための
Hui ZouとTrevor Hastie。「正則化とエラスティックネットを介した変数の選択。」JR統計。Soc。、vol 67(2005)、Part 2.、pp。301-320。
リチャード・ハーディは、これがHastieらでより詳細に開発されていることを指摘しています。「統計学習の要素」第3章および第18章
これはコメントで私に提起された質問です:
エラスティックネットは、投げ縄や尾根だけよりも均一に優れているというあなたの観点に対するもう1つの議論を提案させてください。ハイパーパラメータを使用して、エラスティック正味コスト関数に別のペナルティ、たとえばコストを追加するとします。私はそれについて多くの研究があるとは思いませんが、3Dパラメーターグリッドで交差検証検索を行うと、最適値としてられると確信しています。もしそうなら、コストも含めることは常に良い考えだと主張しますか。
質問の精神が「あなたの主張通りであり、2つの罰則が良い場合、別の罰則を追加してみませんか?」しかし、そもそも正則化する理由に答えがあると思います。
正則化はスパースソリューションを生成する傾向がありますが、結果と最も強く相関する特徴を選択し、残りをゼロにする傾向もあります。さらに、観測値を持つデータセットでは、最大特徴を選択できます。正則化は、高度に(または完全に)相関する特徴から生じる不適切な問題に対処するのに適しています。特徴を持つデータセットでは、正則化を使用して、場合にモデルを一意に識別できます。
これらの問題のいずれかは別として、推定器の収縮特性は「悲観的」であり、係数を0に引くため、正則化モデルはMLモデルよりも優れています。
しかし、私は正則化の統計的性質を知りません。私が取り組んだ問題では、一般に、相関性の低い特徴(データによって裏付けられていない仮説)と共線的特徴の両方の問題に直面しています。
実際、パラメーターでのおよびペナルティーが通常使用される唯一のペナルティーであるという説得力のある理由があります。
「なぜと正則化のみが表示され、他の規範は表示されないのですか?」、@ whuberはこのコメントを提供しています:
私は特にこの問題を調査していませんが、似たような状況での経験は、素敵な定性的な答えがあるかもしれない示唆:そのうち、お互いに局部的に等しくなる原点で微分秒であるすべての規範ノルムが標準です。他のすべての規範は原点で微分可能ではなく、それらの動作を定性的に再現します。それは色域をカバーしています。実際には、ノルムとノルムの線形結合は、任意のノルムを原点で2次に近似します。これが、残差を逸脱しない回帰で最も重要なことです。
我々は、効果的可能性によって提供することができるオプションの範囲をカバーすることができるようにの組合せとして規範及びの追加のハイパーチューニングを必要とせずに、すべての-ノルムを。
私は一般的に@Sycoraxの回答に同意しますが、資格を追加したいと思います。
「なげなわとリッジの回帰よりも常に弾性ネットが好ましい」と言うのは、少し強すぎるかもしれません。小規模または中規模のサンプルでは、前者または後者が実際に関連するものであっても、エラスティックネットは純粋なLASSOまたは純粋なリッジソリューションを選択しない場合があります。強力な事前知識があれば、エラスティックネットの代わりにLASSOまたはリッジを選択することは理にかなっています。ただし、事前の知識がない場合、エラスティックネットが推奨されるソリューションである必要があります。
また、LASSOとリッジの相対的な重みをクロス検証を使用して選択する必要があるため、エラスティックネットはLASSOまたはリッジよりも計算上高価です。アルファ値の合理的なグリッドが0.1のステップサイズで[0,1]である場合、弾性ネットはLASSOまたはリッジの約11倍の計算コストを意味します。(LASSOとリッジの計算の複雑さはまったく同じではないため、結果は大まかな推測にすぎません。)