線形回帰が、仮説と入力データポイント間の垂直距離に基づくコスト関数を使用するのはなぜですか?
入力(予測)および出力(応答)データポイントA、B、C、D、Eがあり、それらのポイントを通る直線を当てはめたいとします。これは質問を説明するための簡単な問題ですが、より高い次元にも拡張できます。 問題文 現在の最適または仮説は、上の黒い線で表されています。青い矢印()は、ポイントから直線と交差するまで垂直線を引くことにより、データポイントと現在の最適な点との間の垂直距離を表します。→→\color{blue}\rightarrow 緑の矢印()は、交差点で現在の仮説に垂直になるように描画され、データ点と現在の仮説の間の最小距離を表します。ポイントAおよびBの場合、現在の最良の推測に垂直で、x軸に垂直な線に類似するように描かれた線。これらの2つのポイントでは、青と緑の線が重なりますが、C、D、Eの点では重なりません。→→\color{green}\rightarrow 最小二乗の原理は、データポイント(A、B、C、D、またはE)を介して推定仮説(→→\color{blue}\rightarrow任意のトレーニングサイクルで)までます。 、およびによって表されます CostFunction=∑Ni=1(yi−hθ(xi))2CostFunction=∑i=1N(yi−hθ(xi))2Cost Function = \sum_{i=1}^N(y_i-h_\theta(x_i))^2 ここではデータポイントを表し、(xi,yi)(xi,yi)(x_i, y_i)hθ(xi)hθ(xi)h_\theta(x_i)は最適な近似を表します。 ポイント(A、B、C、D、またはE)間の最小距離は、そのポイントから現在の最良の推測(緑の矢印)まで引いた垂直線で表されます。 最小二乗関数の目的は、最小化されたときに仮説とすべてのポイントを組み合わせた距離が最小になる目的関数を定義することですが、必ずしも仮説と単一の入力ポイント間の距離は最小化されません。 **質問** ()?→→\color{green}\rightarrow