平易な英語の正則化とは何ですか?


74

他の記事とは異なり、このテーマのウィキペディアのエントリは、数学以外の人(私のような)には読めないことがわかりました。

ルールの少ないモデルを好むという基本的な考え方を理解しました。私が得られないのは、ルールのセットからどのようにして「正規化スコア」に到達し、それを使用してモデルを最小から最大のオーバーフィットにソートできるかということです。

簡単な正則化方法を説明できますか?

統計取引システムの分析のコンテキストに興味があります。正則化を適用して次の2つの予測モデルを分析できるかどうか、どのように説明できるかを説明していただければ幸いです。

モデル1-次の場合に価格が上がる:

  • exp_moving_avg(price、period = 50)> exp_moving_avg(price、period = 200)

モデル2-価格が上がる場合:

  • 価格[n] <価格[n-1] 10回連続
  • exp_moving_avg(price、period = 200)上がる

しかし、私はあなたがどのように正則化を行っているのかを知ることにもっと興味があります。それを説明するためのより良いモデルを知っているなら、そうしてください。


7
例として、リッジ回帰があります。これは、2乗係数の合計に限界があるOLSです。これにより、モデルにバイアスが導入されますが、係数の分散が、場合によっては大幅に減少します。LASSOは別の関連する方法ですが、係数のサイズにL1制約を課します。係数を落とすという利点があります。これはp >> nの状況に役立ちます。ある意味での正規化とは、モデルの「縮小」を意味し、過剰適合を回避(および係数分散を低減)します。通常、モデルの予測パフォーマンスが向上します。
HairyBeast

2
@HairyBeast素敵なコメントを答えにしてください。可能であれば、OPが手近な問題にどのように変換されるかを理解できるように、説明的な例を追加してみてください。
chl

1
@HairyBeast、だから、正則化はバイアス分散トレードオフのアイデアを実装するための単なる方法であると言えますか?
アボカド

私は特にのLP正則の異なる形を視覚化するには、このビデオは非常に役に立った:youtube.com/watch?v=sO4ZirJh9ds
ANM

正則化は、学習したモデルの過剰適合に対処するためのものです。わかりやすい英語で視覚的に説明しようとしました。以下は、記事medium.com/@vamsi149/
solver149

回答:


57

簡単に言えば、正則化とは、モデルが予測(一般化)に優れているように、モデルの複雑さの優先レベルを調整または選択することです。これを行わないと、モデルが複雑すぎて過度に適合したり、単純すぎて不十分になったりする可能性があり、どちらの方法でも予測が不十分です。

最小二乗法が複雑なモデルをトレーニングデータの小さなセットに適合させる場合、おそらく過剰適合になりますが、これが最も一般的な状況です。モデルの最適な複雑さは、モデル化するプロセスの種類とデータの品質に依存するため、アプリオリの正しい複雑さはありません。

正規化するには、2つのことが必要です。

  1. クロス検証または検証データのセットを使用して、モデルの予測がどの程度優れているかをテストする方法(このためにフィッティングエラーを使用することはできません)。
  2. モデルの複雑さや滑らかさ、または異なる複雑さ/滑らかさのモデルの選択を変更できる調整パラメーター。
基本的に、複雑度パラメーターを調整(またはモデルを変更)し、最適なモデル予測を提供する値を見つけます。

最適化された正則化誤差は全体的な予測誤差の正確な推定値ではないため、正則化後、最終的に追加の検証データセットを使用するか、不偏予測誤差を得るために追加の統計分析を実行する必要があります。

(交差)検証テストを使用する代わりに、ベイジアン事前分布または他の方法を使用して複雑さまたは非平滑性にペナルティを科すことができますが、これらにはより統計的な洗練と問題およびモデル機能の知識が必要です。


2
私から+1。私は...この答えは先頭から始まると理解することがとても簡単であることを好む
アンドリュー・

2
正規化は実際にアンダーフィットを減らすために使用されていますか?私の経験では、正則化は複雑性/感度の高いモデルに適用されて複雑性/感度を低減しますが、単純性/非感受性のモデルには適用されず、複雑性/感度を高めます。
リチャードハーディ

現在、この答えはかなり古いものですが、Tobyが言及しているのは、正規化が、データ量を考慮して適切な複雑さのモデルに適合する原則的な方法であると考えているからです。これは、少なすぎるパラメーター(または間違ったパラメーター)を使用してアプリオリにモデルを選択することと、複雑すぎて適合しすぎるモデルを選択することの両方に代わるものです。
ブライアンクラウス

26

経験的リスク最小化によって学習を実行するとします。

より正確に:

  • L(actual value, predicted value)
  • 予測が損失関数の平均を最小化するような方法でモデルを適合させたい

Model=argminL(actual,predicted(Model))

しかし、十分なデータがなく、モデルに大量の変数がある場合、パターンを説明するだけでなく、データのランダムノイズも説明するようなモデルを見つける可能性が非常に高くなります。この効果は過剰適合と呼ばれ、モデルの一般化能力の低下につながります。

Model=argminL(actual,predicted(Model))+λR(Model)

R(Model)RRR

Ra¯


12

簡単に言えば、正則化とは、期待するソリューションにメリットをもたらすことです。あなたが言及したように、例えば、単純さの定義のために、あなたは「単純な」ソリューションに利益をもたらすことができます。問題にルールがある場合、1つの定義のルールを少なくすることができます。しかし、これは問題に依存します。

しかし、あなたは正しい質問をしています。たとえば、サポートベクターマシンでは、この「シンプルさ」は、「最大マージン」の方向にタイを壊すことに由来します。このマージンは、問題に関して明確に定義できるものです。ウィキペディアのSVMの記事には、非常に優れた幾何学的派生があります。正則化の用語は、少なくとも間違いなく、SVMの「秘密のソース」であることがわかります。

正則化はどのように行いますか?一般に、使用する方法に付属しています。SVM を使用する場合はL2正規化を行い、LASSOを使用する場合はL1正規化を行います(hairybeastが言っていることを参照)。ただし、独自のメソッドを開発している場合は、望ましい解決策と望ましくない解決策を区別する方法を知る必要があり、これを定量化する機能が必要です。最終的には、コスト期間と正則化期間があり、両方の合計を最適化する必要があります。


1

正則化手法は、機械学習モデルに適用される手法で、決定境界/適合モデルをより滑らかにします。これらの手法は、過剰適合の防止に役立ちます。

C


0

簡単に言えば、正則化は、機械学習アルゴリズムをトレーニングするときに過剰適合を避けるための手法です。十分な自由パラメーターを備えたアルゴリズムがある場合、サンプルを非常に詳細に補間できますが、サンプルの外にある例は、真の傾向ではなくサンプルのノイズまたはランダムな不規則性をキャプチャしただけなので、この詳細補間に従わない場合があります。

モデルのパラメーターの絶対値を制限することで、過剰適合を回避します。これは、モデルパラメーターの大きさに基づいてペナルティを課すコスト関数に項を追加することで実行できます。大きさがL1ノルムで測定される場合、これは「L1正則化」と呼ばれ(通常はスパースモデルになります)、L2ノルムで測定される場合、これは「L2正則化」などと呼ばれます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.