L1回帰推定値の中央値とL2回帰推定値の平均


24

そこで私は、L1(つまり投げ縄)とL2(つまり尾根回帰)のどの中心的な測定値が推定されたのかという質問をされました。答えは、L1 =中央値およびL2 =平均です。これには直感的な推論のタイプがありますか?または、代数的に決定する必要がありますか?もしそうなら、どうすればそれを行うことができますか?


4
L1 / L2によって、目的関数または制約を参照していますか?目的関数の場合、はいL1エラーは条件付き中央値で最小化され、L2は条件付き平均で最小化されます。制約(リッジ/なげなわが参照するもの)の場合、これはこれについて考える間違った方法です。彼らの「中心的手段」は、まだ条件付き平均を目指しているが、に対するペナルティが異なる。β
-muratoa

回答:


24

L1損失関数が中央値をもたらす理由については、単純な幾何学的説明があります。

私たちは1つの次元で作業していることを思い出してください。水平に広がる数直線を想像してください。数値線上に各データポイントをプロットします。ライン上のどこかに指を置きます。あなたの指が現在の候補者の見積もりになります。

指を少し右に動かし、単位を右に動かしたとします。総損失はどうなりますか?あなたの指が2つのデータポイントの間であった、とあなたは、データポイントを渡ってそれを移動する場合さて、あなたは、総損失が増加してきましたδ指の左側に各データポイントのために、とてそれを減少さδに各データポイントについて指の右。そのため、指の右にあるデータポイントが左にあるよりも多い場合、指を右に動かすと総損失が減少します。つまり、データポイントの半分以上が指の右にある場合、指を右に移動する必要があります。δδδ

これにより、データポイントの半分がそのスポットにあり、半分が右側にあるスポットに向かって指を動かすことになります。そのスポットは中央値です。

それがL1と中央値です。残念ながら、L2と平均についての「すべての直観、代数なし」の説明はありません。


7
単純なポイント推定について話している場合、それは簡単な計算です。ddβ1ni=1n(yiβ)2=21ni=1n(yiβ)=0β=1niyi
muratoa

3
@muratoa、はい、私は微積分の導出を知っていますが、質問は特に直観に焦点を当てて代数を避ける説明を求めています。質問者はすでに微積分の導出を知っていると思いますが、より直感的なものを探しています。
DW

OPは、最小二乗と平均絶対誤差の条件付き中央値を使用した条件付き平均であるxが与えられたyの推定値について話していることを示唆する回帰に言及したと思いました。同じ説明が機能するはずですが、問題は少し異なります。平均の微積分の説明は非常に明確で簡単です。おそらく、平均値の説明は、中央値のDWと同様の方法で与えることができます。サンプル平均は、母平均の不偏推定値です。
マイケルR.チャーニック

推定値をサンプル平均から遠ざけると、バイアスの増加により平均二乗誤差が変化します。平均二乗誤差は、推定値がdを推定値候補としてサンプル平均に追加すると、実際にd 2増加します。2
マイケルR.チャーニック

11
muratoaによって与えられた代数の迅速で汚いバージョンは、L1の場合に存在します。場合を除き、|の導関数 Y I - β | WRTのβはある- S G Nβ=yi|yiβ|βであり、 - 1であれば β < Y Iおよび + 1であれば β > Y I。だから dsgn(yiβ)1β<yi+1β>yi場合を除き、 βはありますddβ1ni|yiβ|=1nisgn(yiβ)β。導関数は、 y i - βの間に同じ数の正と負の項がある場合に消えます。これは、 β y iの中央値である場合に大まかに言えます。yiyiββyi
イヴ

17

この説明は、DWの答えに対するmuratoaYvesのコメントの要約です。これは微積分に基づいていますが、簡単でわかりやすいことがわかりました。

我々はしていると仮定するとおよびそれらに基づいて新しい推定値βを取得したい。損失の導関数をゼロにするβを見つけると、最小の損失が得られます。y1,y2,...ykββ

L1損失

L1

L1=1ki=1k|yiβ|
SGNYI-βが1つのYI
L1β=1ki=1ksgn(yiβ)
sgn(yiβ)、-1とき Y I < βy i - βの間に同じ数の正および負の項がある場合、導関数は0に等しくなります。つまり、 β y iの中央値でなければなりません。yi>βyi<βyiββyi

L2損失

L2

L2=1ki=1k(yiβ)2
L2
L2β=2ki=1k(yiβ)
したがって、L2損失を最小化するには、βyiの平均にする必要があります。
L2β=0β=1ki=1kyi

βyi

3

さらに実用的な例でDWの答えに追加(L2損失関数の場合も同様):

近くに4軒の家(例えば10メートル)でできた小さな村を想像してください。それらから1キロメートルのところに、別の非常に孤立した家があります。今、あなたはその町に到着し、どこかに自分の家を建てたいと思っています。他の家の近くに住み、みんなと友達になりたい。次の2つの代替シナリオを検討してください。

  1. あなたは、家までの平均距離が最も小さい場所にいると決めました(つまり、L1損失関数を最小化します)。

    • 家を村の中心に置くと、4軒の家から約10メートル、1軒の家から1キロ離れます。これにより、平均距離は約200メートル(10 + 10 + 10 + 10 + 1000)になります。 / 5)。
    • 村から500メートル離れた場所に家を置くと、5軒の家から約500メートル離れたところにあり、平均距離は500メートルになります。
    • 孤立した家の隣に家を置くと、村から1 km(4軒の家)離れ、1軒の家から約10メートル離れ、平均距離は約800メートルになります。

    したがって、村にあなたの家を建てることによって、最低平均距離100メートルに到達します。具体的には、これら4つの家の中央に家を建てて、平均距離をさらに数メートル延長します。そして、この点が「中央値」であり、中央値の式を使用して同様に得られたことがわかります。

  2. あなたは民主的なアプローチを取ることにしました。将来の5人の隣人それぞれに、あなたの新しい家の希望する場所を尋ねます。彼らは皆あなたが好きで、あなたが彼らの近くに住むことを望んでいます。そのため、彼らは全員、自分の家のすぐ隣の場所であることが望ましい場所であると述べています。5人の隣人の投票されたすべての場所の平均を取得すると、結果は「村から200メートル離れた」(投票の平均:0 + 0 + 0 + 0 + 1000/5 = 200)になります。平均式を使用して同様に取得した5つの家の「平均点」。そして、この位置は、距離の二乗の合計を最小化するものとまったく同じであることが判明しました(つまり、L2損失関数)。それを見るために数学をやってみましょう:
    • この場所では、二乗距離の合計は200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 800 ^ 2 = 800 000
    • 村の中心に家を建てる場合、距離の二乗の合計は0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 1000 ^ 2 = 1 000 000
    • 村から100メートル離れた場所に家を建てる場合(1のように)、2乗距離の合計は100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 900 ^ 2 = 850 000
    • 孤立した家から100メートル離れた場所に家を建てる場合、距離の2乗の合計は900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 100 ^ 2 = 3 250 000

それで、はい、直感に反して、距離の合計を最小化するとき、平均の意味で「中間」にいるのではなく、中央値。これは、最も一般的な回帰モデルの1つであるOLSが絶対誤差ではなく二乗誤差を使用する理由の一部です。


1

既に投稿された回答(これは私にとって非常に役に立ちました!)に加えて、L2ノルムと平均との関係についての幾何学的な説明があります。

と同じ表記法を使用するには chefwen L2損失の式は次のとおりです。

L2=1ki=1k(yiβ)2

βL2k

=1kyβ2

ykyβ=βββ

βyββ1=111y1

k=2y=26144

ベータに投影されたベクトルy

k>2

β=プロジェクト1y=y1|1|21β==1kyk
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.