OLS線形回帰のコスト関数


32

Andrew NgがCourseraで機械学習について行った線形回帰に関する講義と少し混同されています。そこで、彼は平方和を最小化するコスト関数を次のように与えました。

12mi=1m(hθ(X(i))Y(i))2

がどこから来たのか理解しています。彼は、二乗項で微分を実行したときに、二乗項の2が半分でキャンセルされるようにしたと思います。しかし、がどこから来たのかわかりません。 1121m

なぜを行う必要があるのですか?標準線形回帰では、それはありません。単に残差を最小化します。ここで必要なのはなぜですか?1m


1 / 2mは、データポイントごとの平均誤差を見つけるのに役立ち、mは総観測値または観測数を表します。
クリシュナンアチャリー

回答:


33

ご存知のように、線形回帰を得るために係数は必要ありません。もちろん、ミニマイザーはそれを使用しても使用しなくてもまったく同じです。で正規化する典型的な理由の1つは、コスト関数を「一般化誤差」の近似として見ることができるようにすることです。これは、ランダムに選択された新しい例(トレーニングセットではない)で予想される平方損失です:m1/mm

仮定一部からIIDをサンプリングされます分布。次に、大きなに対して、 m 1(X,Y),(X(1),Y(1)),,(X(m),Y(m))m

1mi=1m(hθ(X(i))Y(i))2E(hθ(X)Y)2.

より正確には、大きな数の強い法則により、 確率1

limm1mi=1m(hθ(X(i))Y(i))2=E(hθ(X)Y)2

注:上記の各ステートメントは、トレーニングセットを見ずに選択された特定のに対するものです。機械学習では、これらのステートメントが、トレーニングセットでの良好なパフォーマンスに基づいて選択されたに対して保持されるようにします。この場合、これらの主張は依然として保持できますが、関数セットについていくつかの仮定を行う必要があり、法律よりも強力なものが必要になります。多数の。 θθθ^{hθ|θΘ}


1
@StudentTこれはおそらく、全体の平均誤差を使用する最良の理由です。私の説明は、DavidRのより深い理由の表面レベルの結果に過ぎません。
マシュードゥルーリー

29

する必要はありません。損失関数は、を含めるか、それを抑制するかにかかわらず、同じ最小値を持ちます。ただし、これを含めると、データポイントごとの平均エラーを最小化(半分)できるという優れた解釈が得られます。別の言い方をすれば、合計エラーの代わりにエラー率を最小化しています。1m

サイズの異なる2つのデータセットのパフォーマンスを比較することを検討してください。大きいデータセットほどサイズが大きいために総誤差が大きくなる傾向があるため、生の二乗誤差の合計は直接比較できません。一方、データポイントごとの平均誤差です。

少し詳しく説明していただけますか?

確かに。データセットは、データポイントコレクションです。モデルが得られると、単一のデータ点での最小二乗誤差はh h{xi,yi}hh

(h(xi)yi)2

もちろん、これはデータポイントごとに異なります。さて、単純にエラーを合計する(そして、あなたが説明する理由のために半分を掛ける)と、合計エラーが得られます

12i(h(xi)yi)2

しかし、被加数の数で割ると、データポイントごとの平均誤差が得られます

12mi(h(xi)yi)2

平均誤差の利点は、サイズ異なる2つのデータセットおよびがある場合、合計誤差ではなく平均誤差を比較できることです。たとえば、2番目のデータセットが最初のデータセットのサイズの10倍であれば、同じモデルの場合、合計誤差は約10倍になると予想されます。一方、平均誤差はデータセットのサイズの影響を除算するため、異なるデータセットで同様のパフォーマンスのモデルが同様の平均誤差を持つと予想されます。{ x iy i }{xi,yi}{xi,yi}


1
あなたについていくことができますが、少し詳しく説明してもらえますか?申し訳ありませんが、機械学習は初めてです!
SmallChess

@StudentT私は答えの中で明確化を試みました。
マシュードゥルーリー

1
確率的勾配降下を行うときにミニバッチサイズを試してみる場合も同じことが当てはまります。これは、大規模なデータセットを操作するときに最も一般的な線形勾配降下です。エラーをより簡単に比較できます。
jasonszhao
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.