そこで私は、L1(つまり投げ縄)とL2(つまり尾根回帰)のどの中心的な測定値が推定されたのかという質問をされました。答えは、L1 =中央値およびL2 =平均です。これには直感的な推論のタイプがありますか?または、代数的に決定する必要がありますか?もしそうなら、どうすればそれを行うことができますか?
そこで私は、L1(つまり投げ縄)とL2(つまり尾根回帰)のどの中心的な測定値が推定されたのかという質問をされました。答えは、L1 =中央値およびL2 =平均です。これには直感的な推論のタイプがありますか?または、代数的に決定する必要がありますか?もしそうなら、どうすればそれを行うことができますか?
回答:
L1損失関数が中央値をもたらす理由については、単純な幾何学的説明があります。
私たちは1つの次元で作業していることを思い出してください。水平に広がる数直線を想像してください。数値線上に各データポイントをプロットします。ライン上のどこかに指を置きます。あなたの指が現在の候補者の見積もりになります。
指を少し右に動かし、単位を右に動かしたとします。総損失はどうなりますか?あなたの指が2つのデータポイントの間であった、とあなたは、データポイントを渡ってそれを移動する場合さて、あなたは、総損失が増加してきましたδ指の左側に各データポイントのために、とてそれを減少さδに各データポイントについて指の右。そのため、指の右にあるデータポイントが左にあるよりも多い場合、指を右に動かすと総損失が減少します。つまり、データポイントの半分以上が指の右にある場合、指を右に移動する必要があります。
これにより、データポイントの半分がそのスポットにあり、半分が右側にあるスポットに向かって指を動かすことになります。そのスポットは中央値です。
それがL1と中央値です。残念ながら、L2と平均についての「すべての直観、代数なし」の説明はありません。
この説明は、DWの答えに対するmuratoaとYvesのコメントの要約です。これは微積分に基づいていますが、簡単でわかりやすいことがわかりました。
我々はしていると仮定するとおよびそれらに基づいて新しい推定値βを取得したい。損失の導関数をゼロにするβを見つけると、最小の損失が得られます。
∂L1
∂L2
さらに実用的な例でDWの答えに追加(L2損失関数の場合も同様):
近くに4軒の家(例えば10メートル)でできた小さな村を想像してください。それらから1キロメートルのところに、別の非常に孤立した家があります。今、あなたはその町に到着し、どこかに自分の家を建てたいと思っています。他の家の近くに住み、みんなと友達になりたい。次の2つの代替シナリオを検討してください。
あなたは、家までの平均距離が最も小さい場所にいると決めました(つまり、L1損失関数を最小化します)。
したがって、村にあなたの家を建てることによって、最低平均距離100メートルに到達します。具体的には、これら4つの家の中央に家を建てて、平均距離をさらに数メートル延長します。そして、この点が「中央値」であり、中央値の式を使用して同様に得られたことがわかります。
それで、はい、直感に反して、距離の合計を最小化するとき、平均の意味で「中間」にいるのではなく、中央値。これは、最も一般的な回帰モデルの1つであるOLSが絶対誤差ではなく二乗誤差を使用する理由の一部です。