LASSOやリッジなどのペナルティ付き回帰推定量は、特定の事前分布を持つベイジアン推定量に対応すると言われています。
はい、それは正しいです。対数尤度関数の最大化とパラメーターのペナルティ関数を含む最適化問題があるときはいつでも、これはペナルティ関数が前のカーネルの対数となる事後最大化と数学的に同等です。 これを見るために、調整パラメーターを使用するペナルティ関数があると仮定します。これらの場合の目的関数は、次のように記述できます。†wλ
Hx(θ|λ)=ℓx(θ)−w(θ|λ)=ln(Lx(θ)⋅exp(−w(θ|λ)))=ln(Lx(θ)π(θ|λ)∫Lx(θ)π(θ|λ)dθ)+const=lnπ(θ|x,λ)+const,
ここで、前のます。ここで、最適化の調整パラメーターは、事前分布の固定ハイパーパラメーターとして扱われることに注意してください。固定されたチューニングパラメーターで古典的な最適化を行っている場合、これは固定されたハイパーパラメーターでベイジアン最適化を行うことと同等です。LASSOおよびリッジ回帰の場合、ペナルティ関数と対応する事前同等物は次のとおりです。π(θ|λ)∝exp(−w(θ|λ))
LASSO RegressionRidge Regressionπ(θ|λ)π(θ|λ)=∏k=1mLaplace(0,1λ)=∏k=1mλ2⋅exp(−λ|θk|),=∏k=1mNormal(0,12λ)=∏k=1mλ/π−−−√⋅exp(−λθ2k).
前者の方法は、絶対値に応じて回帰係数にペナルティを課します。これは、ゼロに位置するラプラス事前分布を課すことと同等です。後者の方法は、大きさの2乗に応じて回帰係数にペナルティを課します。これは、ゼロに位置する通常の事前分布を課すことと同等です。
これで、頻繁に使用する人は、相互検証によって調整パラメーターを最適化することになります。そうすることと同等のベイジアンがありますか、それはまったく使用されますか?
頻度論的方法が最適化問題として提唱できる限り(仮説検定などを含むというよりも)、同等の事前分布を使用したベイジアンの類推が存在します。frequentistsは、チューニングパラメータ扱うことと同じように不明とし、データからこれを推定、ベイズは、同様にハイパー扱うこと不明として。完全なベイジアン解析では、ハイパーパラメーターに独自の事前分布を与え、この事前分布の下で事後最大値を見つけることが必要になります。これは、次の目的関数を最大化することに似ています。λλ
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−h(λ)=ln(Lx(θ)⋅exp(−w(θ|λ))⋅exp(−h(λ)))=ln(Lx(θ)π(θ|λ)π(λ)∫Lx(θ)π(θ|λ)π(λ)dθ)+const=lnπ(θ,λ|x)+const.
この方法は、分析者が事前の特定のハイパーパラメーターを選択することに不安を感じている場合に、ベイジアン分析で実際に使用され、未知として扱い、分布を与えることで事前の拡散を図ります。(これは、関心のあるパラメーター前に拡散を与える暗黙的な方法にすぎないことに注意してください。)θ
(以下のstatslearner2からのコメント)数値的に同等のMAP推定値を探しています。たとえば、固定ペナルティリッジの場合、MAP推定値がリッジ推定値と正確に等しいガウス事前分布があります。さて、k-fold CV ridgeについて、CV-ridge推定に類似したMAP推定を与えるハイパー優先順位は何ですか?
分割交差検定を見る前に、数学的に、最大事後(MAP)メソッドは、パラメーターおよびデータ関数の単純な最適化であることに注意する必要があります。不適切な事前分布を許可する場合、スコープはこれらの変数の関数に関係する最適化問題をカプセル化します。したがって、この種の単一の最適化問題としてフレーム化できる頻度分析法にはMAPの類推があり、この種の単一の最適化としてフレーム化できない頻度分析法にはMAPの類推がありません。Kθ Xθx
調整パラメーターを持つペナルティ関数を含む上記のモデルの形式では、調整パラメーターを推定するために倍交差検証が一般的に使用されます。この方法では、データベクトルをサブベクトルます。サブベクトルそれぞれについて、モデルを「トレーニング」データで近似し、「テスト」データでモデルの近似を測定します。各適合では、モデルパラメーターの推定量を取得します。これにより、テストデータの予測が得られ、実際のテストデータと比較して「損失」の尺度を得ることができます。KλxKx1,...,xKk=1,...,Kx−kxk
EstimatorPredictionsTesting lossθ^(x−k,λ),x^k(x−k,λ),Lk(x^k,xk|x−k,λ).
次に、「フォールド」のそれぞれの損失測定値を集計して、相互検証の全体的な損失測定値を取得できます。K
L(x,λ)=∑kLk(x^k,xk|x−k,λ)
次に、全体的な損失測定値を最小化することにより、チューニングパラメーターを推定します。
λ^≡λ^(x)≡arg min λL(x,λ).
これは最適化の問題であることがわかります。そのため、2つの個別の最適化問題(つまり、について上記のセクションで説明したものとについてここで説明したもの)があります。後者の最適化にはが関与しないため、これらの最適化を1つの問題に結合することができます。以下で説明するいくつかの技術を使用します。これを行うには、目的関数を使用した最適化問題を検討します。θλθ
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ),
ここで、は、調整損失の重み付け値です。チューニング損失の最適化に重量が無限大となり、最適化問題は、から推定されたチューニングパラメータが得られるように、(制限で)クロスバリデーションを倍。目的関数の残りの部分は、調整パラメーターのこの推定値を条件とする標準の目的関数です。さて、残念ながら、使用すると最適化問題がになりますが、を非常に大きい(ただし有限の)値にすると、2つの最適化問題の組み合わせを任意の精度で近似できます。δ>0δ→∞Kδ=∞δ
上記の分析から、モデルのあてはめと分割交差検証プロセスに類似したMAPを形成することが可能であることがわかります。これは厳密なアナロジーではありませんが、任意の精度までの密接なアナロジーです。また、損失関数はデータに依存し、事前ではなく尤度の一部として吸収されるため、MAPの類推は元の問題と同じ尤度関数を共有しないことに注意することも重要です。実際、完全なアナロジーは次のとおりです。K
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ)=ln(L∗x(θ,λ)π(θ,λ)∫L∗x(θ,λ)π(θ,λ)dθ)+const,
ここで、および、固定(および非常に大きい)ハイパーパラメーター。L∗x(θ,λ)∝exp(ℓx(θ)−δL(x,λ))π(θ,λ)∝exp(−w(θ|λ))δ
†これは、ペナルティがシグマ有限密度の対数に対応しない場合に不適切な事前確率を与えます。