統計が尤度の最大化に関するものであれば、機械学習は損失の最小化に関するものです。将来のデータで生じる損失がわからないため、近似、つまり経験的損失を最小限に抑えます。
たとえば、予測タスクがあり、誤分類の数によって評価される場合、結果のモデルがトレーニングデータで最小数の誤分類を生成するようにパラメーターをトレーニングできます。「誤分類の数」(つまり、0-1損失)は微分できないため、扱いにくいハード損失関数です。したがって、滑らかな「代理」で近似します。たとえば、ログ損失は0-1損失の上限であるため、代わりにそれを最小化できます。これは、データの条件付き尤度を最大化するのと同じであることがわかります。パラメトリックモデルでは、このアプローチはロジスティック回帰と同等になります。
構造化モデリングタスクおよび0〜1の損失のログ損失近似では、最大条件付き尤度とは異なるものが得られ、代わりに(条件付き)限界尤度の積が最大化されます。
損失のより良い近似を得るために、人々は損失を最小化するためのトレーニングモデルと、その損失を将来の損失の推定値として使用することは過度に楽観的な推定値であることに気付きました。そのため、より正確な(真の将来損失)最小化のために、経験的損失にバイアス補正項を追加し、それを最小化します。これは、構造化リスク最小化と呼ばれます。
実際には、正しいバイアス補正項を見つけるのは非常に難しい場合があるため、バイアス補正項の「精神で」という表現、たとえばパラメーターの2乗和を追加します。最終的に、ほとんどすべてのパラメトリック機械学習の教師付き分類アプローチは、モデルをトレーニングして以下を最小化します
∑私L (m(x私、w )、y私)+ P(w )
ここで、はベクトルwでパラメーター化されたモデル、iはすべてのデータポイント{ x i、y i }で取得され、Lは真の損失の計算上適切な近似値、P (w )はバイアス補正/正規化項ですmw私{ x私、y私}LP(w )
あなたの場合、例えば、、Y ∈ { - 1 、1 }、典型的なアプローチができるようになり、M(xは)= 符号(W ⋅ X )、L (M(X )、Y )= - ログ(Y × (X ⋅ W ))、P (X ∈ { - 1 、1 }dy∈ { - 1 、1 }M(X)=符号(W⋅X)L (m(x )、y)= − ログ(y× (X ⋅ W ))、および選択 QをクロスバリデーションによってP(w )= q× (W ⋅ W )q