最小二乗の場合の自然数へのバイアス


14

またはを最小化するのではx^2なく、最小化しようとする理由。数が正確に2でなければならない理由はありますか、それとも単に数学を単純化する利点がある規則ですか?|x|^1.95|x|^2.05

回答:


5

この質問はかなり古いですが、実際にはここに表示されない答えがあり、(いくつかの合理的な仮定の下で)二乗誤差が正しいが、他の力が間違っている理由を説得力のある理由を与えます。

我々はいくつかのデータを持っていると言うそして、このデータを観察する確率密度p fD fに関して最大​​でなければならないという意味で、データを最もよく予測する線形(または任意の)関数fを見つけたい(これはD=バツ1y1バツ2y2バツnynfpfDf最尤推定)。我々は、データがによって与えられると仮定するとプラス標準偏差を有する正規分布誤差項σは、 p個のFD = N Πは iが= 1 1fσ これは1と同等です

pfD==1n1σ2πeyfバツ22σ2
したがって、pfD)を最大化するには、 n i = 1yifxi2、つまり二乗誤差項の合計を最小化します。
1σn2πn/2e12σ2=1nyfバツ2
pfD=1nyfバツ2

それは循環しているように見えますが、なぜ正規分布のエラー用語を仮定する必要がありますか?
ジョー

@Joe常にするべきではありませんが、エラー項について知っているのが平均が0であり、絶対値が有限であることがわかっている場合、それが最大エントロピーの仮定であるため、未知のものに代わることができますあなたが実際に持っているエラー関数。エラー分布に関する追加情報がある場合、それを使用して、より正確な最尤推定量を見つけることができると思います。

「誤差項について知っているのが、平均が0で、絶対値が有限であるということだけなら、それが最大エントロピーの仮定です」-私が見た最大エントロピー分布のすべての導出は、ラプラス分布を(既知の)有限の期待される絶対値の最大分布、ガウスは(既知の)有限の期待される二乗絶対値の最大値です。1つの例を参照してくださいstats.stackexchange.com/questions/82410/…
ジョー

あなたは知っています、私はしません。私はあなたが正しいと仮定します。(何らかの理由でコメントを編集する方法がわかりませんが)

14

x ^ 2以外のノルムを最小化することができなかった理由はありません。たとえば、分位点回帰について書かれた本全体があります。中央値で作業している場合。一般的に行うのは難しく、エラーモデルによっては、適切な推定量が得られない場合があります(コンテキスト内で低分散または不偏または低MSE推定量を意味するかどうかによって異なります)。

実数の値のモーメントよりも整数のモーメントを好む理由については、主な理由は、実数の整数の累乗は常に実数になりますが、負の実数の非整数の累乗は複素数を作成するため、絶対値。言い換えれば、実数値のランダム変数の3番目のモーメントは実在しますが、3.2番目のモーメントは必ずしも実在しないため、解釈の問題が発生します。

それ以外...

  1. ランダム変数の整数モーメントの解析式は、関数または他の方法を生成することによって、実際の値のモーメントよりも一般的に見つけるのがはるかに簡単です。したがって、それらを最小化するメソッドは簡単に記述できます。
  2. 整数モーメントを使用すると、実数値のモーメントよりも扱いやすい式になります。
  3. (たとえば)Xの絶対値の1.95番目のモーメントが(たとえば)Xの2番目のモーメントよりも優れたフィッティングプロパティを提供するという説得力のある理由は考えられませんが、それは調査するのに興味深いかもしれません
  4. L2ノルム(または2乗誤差)に固有のドット積を介して記述できるため、計算速度が大幅に向上します。また、ヒルベルト空間である唯一のLp空間でもあり、便利な機能です。

8

記述子内に残る分散を最小化しようとします。なぜ分散なのか?この質問を読んでください。また、これは、エラーが正規分布しているという(ほとんど黙って)仮定と一緒になります。

拡張:
2つの追加引数:

  1. 分散については、相関のないサンプルの場合、分散の合計が合計の分散に等しいというこの「法則」があります。エラーがケースと相関していないと仮定すると、平方の残差を最小化することで、説明された分散を最大化することが簡単になります。

  2. エラーの正規性を仮定すると、最小二乗誤差推定量は最尤推定量になります。


1
他のスレッドの答えは、2が2に非常に近いが自然数ではない他の値よりも優れている理由を実際には説明していません。
クリスチャン

そうだと思います。それでも答えを広げようとします。

したがって、エラーが通常分布していない場合、たとえば別のレビ安定分布に従っている場合、2以外の指数を使用すると効果が得られる可能性があります。
ラスコルニコフ

正規分布は、既知の分散に対して最も「慎重な」分布であることに注意してください(固定分散のすべての密度の中で最大エントロピーがあるため)。データによって言われることはほとんど残っています。別の言い方をすれば、同じ分散を持つ「大きな」データセットの場合、「あなた」は、通常とは異なる分布を得るために信じられないほど困難に「試行」しなければなりません。
確率論

8

通常の最小二乗では、(A'A)^(-1)x = A'bの解は誤差損失の二乗を最小化し、最尤解です。

そのため、この歴史的なケースでは数学が簡単だったことが主な理由です。

しかし一般に、人々は指数関数、ロジスティック、コーシー、ラプラス、フーバーなどの多くの異なる損失関数を最小化します。これらのよりエキゾチックな損失関数は一般に多くの計算リソースを必要とし、閉じた形式のソリューションを持ちません彼らは今、ますます人気が出始めています。


1
損失の概念を導入するための+1。(しかし、「指数関数」などの分布ではなく、損失関数ですか?)歴史的に線形損失は、1750年に正式に開発された最初のアプローチであり、簡単な幾何学的解法が利用できました。ラプラスは1809年の出版物でこれと二重指数分布との関係を確立したと考えています(MLEは二乗誤差ではなく絶対誤差を最小化します)。したがって、二乗損失は、MLEを持ち、数学的に簡単であるという基準によって一意に区別されません。
whuber

それらは、異なるコンテキストでの分布関数と損失関数の両方です。
ジョー

以前の返信でエンターを押しすぎました-指数関数的な損失はブースティングに広く関連付けられています(フリードマンヘイスティとチブシラーニのブースティングの統計的見解を参照)。絶対値の損失に相当します-だから、ほとんどの場合、私はそれを指摘してくれて非常にずさんでした。しかし、L1損失には幾何学的な解決策がありますが、分析的に閉じた形ではないため、その解決策を簡単とは言いません。
ジョー

1

私の理解では、エラーを最小限に抑えようとしているため、エラーの負の差の合計がエラーの正の差の合計に等しい状況で自分自身を取得しない方法を見つける必要があるということです。ぴったり合った。これは、誤差の差の合計を2乗することで行います。これは、誤差の負の差と正の差の両方が正になることを意味します(1×1=1)。育てたらバツ 正の整数以外の累乗では、エラーの符号が異なるため、この問題に対処しません。または、整数ではないものの累乗にすると、複素数の領域に入ります。数字。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.