線形回帰が、仮説と入力データポイント間の垂直距離に基づくコスト関数を使用するのはなぜですか?


14

入力(予測)および出力(応答)データポイントA、B、C、D、Eがあり、それらのポイントを通る直線を当てはめたいとします。これは質問を説明するための簡単な問題ですが、より高い次元にも拡張できます。

問題文

ここに画像の説明を入力してください

現在の最適または仮説は、上の黒い線で表されています。青い矢印()は、ポイントから直線と交差するまで垂直線を引くことにより、データポイントと現在の最適な点との間の垂直距離を表します。

緑の矢印()は、交差点で現在の仮説に垂直になるように描画され、データ点と現在の仮説の間の最小距離を表します。ポイントAおよびBの場合、現在の最良の推測に垂直で、x軸に垂直な線に類似するように描かれた線。これらの2つのポイントでは、青と緑の線が重なりますが、C、D、Eの点では重なりません。

最小二乗の原理は、データポイント(A、B、C、D、またはE)を介して推定仮説(任意のトレーニングサイクルで)までます。 、およびによって表されます

CostFunction=i=1N(yihθ(xi))2

ここではデータポイントを表し、(xi,yi)hθ(xi)は最適な近似を表します。

ポイント(A、B、C、D、またはE)間の最小距離は、そのポイントから現在の最良の推測(緑の矢印)まで引いた垂直線で表されます。

最小二乗関数の目的は、最小化されたときに仮説とすべてのポイントを組み合わせた距離が最小になる目的関数を定義することですが、必ずしも仮説と単一の入力ポイント間の距離は最小化されません。

**質問**

()?


5
単純な線形回帰は、観測値のx座標の値にエラーがないことを前提としています(たとえば、それらは実験的な操作であるため)。x軸にエラーがある場合、提案したものと同様のコスト関数を最小化することにより、それらを説明できます。これには、x軸とy軸の誤差の分散の比率を設定する必要があります。比率場合、これはポイントとライン間の垂直距離を最小化することになります(直交回帰)。比場合1は、それが呼び出されみなし回帰=11
マッテオ

PCA上で、この記事を参照してください。cerebralmastication.com/2010/09/...
ジェームズ

回答:


13

従属変数(垂直誤差)と独立変数(水平誤差)の両方にノイズがある場合、最小二乗目的関数を修正してこれらの水平誤差を組み込むことができます。これら2つのタイプのエラーの重み付け方法の問題。この重み付けは通常、2つのエラーの分散の比率に依存します。

  1. 垂直誤差の分散が水平誤差の分散に比べて非常に大きい場合、OLSは正しいです。
  2. 最小二乗(ここで、逆水平誤差の分散は、垂直誤差の分散に非常に大きな相対的である場合に回帰さYとの係数の推定値の逆数yはの推定値として使用されますβxyyβ)が適切です。
  3. 垂直誤差の分散と水平誤差の分散の比が従属変数と独立変数の分散の比に等しい場合、「対角」回帰の場合があり、一貫性のある推定は次のようになります。 OLSと逆最小二乗推定量の幾何平均です。
  4. これらの誤差分散の比率が1である場合、「直交」回帰の場合があり、推定線に垂直な線に沿って測定された平方誤差の合計が最小化されます。これはあなたが念頭に置いていたものです。

実際には、この手順の大きな欠点は、誤差分散の比率が通常わからず、通常は推定できないため、前方へのパスが明確ではないことです。


最初の文で「依存」を「独立」に変更するように編集しようとしましたが、編集は6文字でなければなりません。タイプミスを修正するために答えを更新するのでしょうか?
ライアンスタウト

@RyanStoutありがとう、できました。スペースを挿入すると、それを回避できると思います。
Dimitriy V. Masterov

今私は少し混乱しています:垂直方向のエラーは従属変数(y)のエラーと独立変数(x)の水平方向のエラーではありませんか?
ライアンスタウト

@RyanStout私は再びそれを台無し
Dimitriy V. Masterov

9

i=1N(yihθ(xi))2
i=1Nminx,y[(yihθ(x))2+(xix)2]
hθ(x)

それは良い点です。一般的にコスト関数を計算する方法を考えていました。
alpha_989

ポイントと非線形の平面/サーフェス間の距離を評価する方法が必ずしもわからないが、ポイントと線形のサーフェス/平面間の距離を評価するために、入れ子になった最小化は必要ないかもしれない:mathinsight.org/distance_point_plane
alpha_989

次に、回帰を使用する場合の目標は、重みを評価して最適なものを見つけることです。私が理解していることから、実際の計算中にコスト関数を評価することはめったにありませんが、コスト関数の導関数はありますか?
alpha_989

1
@whuber。そうですか。これらの2つの用語の意味を確立すると、解決される問題が異なることに同意します(xにエラーがある可能性があるかどうか)。これらの用語の意味について、知識のある人から幅広い同意を得られるとは思わないが、それは副次的なことだ。
確率的

1
@Stochastic「曲線近似」の概念にはあいまいさがあるかもしれないことに同意しますが、私が呼びかけている回帰の概念は、最高の権威による著作に現れています。
whuber

2

単純化されたバージョンでは、Xにはエラーがないと想定されます。したがって、たとえばプロットの点Eを見ると、そのX座標は正確に正確であると想定されます。通常これは、Xを制御できる場合、つまり特定の値に設定できる場合です。その場合、存在する可能性のあるエラーはY方向のみであるため、エラー/コスト関数にはY方向のみが含まれます。

そうでない場合はいつでも、Xを制御せず、Xにエラーが発生する可能性がある場合は常に、タイプIIまたはモデルII回帰と呼ばれるもの、およびそのバリアントでエラー関数にX方向を組み込みます。XとYのスケールが異なる場合、これを行うのは難しいため、正規化などを考慮する必要があります。


1

散発的であるというリスクはありますが、エラー関数の理由は、標準解釈ではxが与えられ、y成分を最もよく説明(または予測)しようとしているためです。したがって、「x」にエラーはありません。たとえば、今日の終値に基づいて明日の株式の終値を試して理解(または予測)することができます。同様に、今日の平均気温の観点から明日の平均気温を試して理解することもできます。明らかに、これらの例は単純なものですが、それがアイデアです。ちなみに、ほとんどの人が気付いていないことですが、あなたの例から明らかなように、yをxに対して回帰する場合、回帰直線はxのyに対する回帰に特に類似する必要はありません。直交回帰は、直線からのポイントの距離を最小化する直線を見つけようとする回帰の用語です。たとえば、IBM株の価格とAAPL株の価格の関係を理解し​​ようとした場合、それが適切な方法です。


1

ポイントを通る直線を近似する場合、直交距離は任意の直線に適用できる最も自然な損失関数です(x軸に垂直な直線ではy距離が意味をなさないことに注意してください)。この問題は、「直交回帰」や(最もよく使われる用語である)「主成分分析」(PCA)など、多くの名前で知られています。任意の次元におけるこの問題の議論については、

Späth:「線形多様体に適合する直交最小二乗法」Numerische Mathematik 48、pp。441–445、1986

@aginenskyがすでに指摘したように、線形回帰の背後にある考え方は、点を通る直線を当てはめるのではなく、予測することです、与えられたx値のy値です。そのため、yの距離のみが使用されます。これが予測精度です。

x(t)pii=1Nt

Wang、Pottmann、Liu:「曲率ベースの2乗距離最小化によるBスプライン曲線の点群への適合」。グラフィックス25.2のACMトランザクション、pp。214-238、2006

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.