Andrew NgがCourseraで機械学習について行った線形回帰に関する講義と少し混同されています。そこで、彼は平方和を最小化するコスト関数を次のように与えました。
がどこから来たのか理解しています。彼は、二乗項で微分を実行したときに、二乗項の2が半分でキャンセルされるようにしたと思います。しかし、がどこから来たのかわかりません。 1
なぜを行う必要があるのですか?標準線形回帰では、それはありません。単に残差を最小化します。ここで必要なのはなぜですか?
Andrew NgがCourseraで機械学習について行った線形回帰に関する講義と少し混同されています。そこで、彼は平方和を最小化するコスト関数を次のように与えました。
がどこから来たのか理解しています。彼は、二乗項で微分を実行したときに、二乗項の2が半分でキャンセルされるようにしたと思います。しかし、がどこから来たのかわかりません。 1
なぜを行う必要があるのですか?標準線形回帰では、それはありません。単に残差を最小化します。ここで必要なのはなぜですか?
回答:
ご存知のように、線形回帰を得るために係数は必要ありません。もちろん、ミニマイザーはそれを使用しても使用しなくてもまったく同じです。で正規化する典型的な理由の1つは、コスト関数を「一般化誤差」の近似として見ることができるようにすることです。これは、ランダムに選択された新しい例(トレーニングセットではない)で予想される平方損失です:m
仮定一部からIIDをサンプリングされます分布。次に、大きなに対して、 m 1
より正確には、大きな数の強い法則により、 確率1
注:上記の各ステートメントは、トレーニングセットを見ずに選択された特定のに対するものです。機械学習では、これらのステートメントが、トレーニングセットでの良好なパフォーマンスに基づいて選択されたに対して保持されるようにします。この場合、これらの主張は依然として保持できますが、関数セットについていくつかの仮定を行う必要があり、法律よりも強力なものが必要になります。多数の。 θ
する必要はありません。損失関数は、を含めるか、それを抑制するかにかかわらず、同じ最小値を持ちます。ただし、これを含めると、データポイントごとの平均エラーを最小化(半分)できるという優れた解釈が得られます。別の言い方をすれば、合計エラーの代わりにエラー率を最小化しています。
サイズの異なる2つのデータセットのパフォーマンスを比較することを検討してください。大きいデータセットほどサイズが大きいために総誤差が大きくなる傾向があるため、生の二乗誤差の合計は直接比較できません。一方、データポイントごとの平均誤差はです。
少し詳しく説明していただけますか?
確かに。データセットは、データポイントコレクションです。モデルが得られると、単一のデータ点での最小二乗誤差はh h
もちろん、これはデータポイントごとに異なります。さて、単純にエラーを合計する(そして、あなたが説明する理由のために半分を掛ける)と、合計エラーが得られます
しかし、被加数の数で割ると、データポイントごとの平均誤差が得られます
平均誤差の利点は、サイズが異なる2つのデータセットおよびがある場合、合計誤差ではなく平均誤差を比較できることです。たとえば、2番目のデータセットが最初のデータセットのサイズの10倍であれば、同じモデルの場合、合計誤差は約10倍になると予想されます。一方、平均誤差はデータセットのサイズの影響を除算するため、異なるデータセットで同様のパフォーマンスのモデルが同様の平均誤差を持つと予想されます。{ x ′ i、y ′ i }