正則化は、トレーニングデータの有限サンプルから学習しようとしているほとんどすべての機械学習アルゴリズムで採用されています。
正則化の概念の起源を説明することにより、特定の質問に間接的に答えようとします。完全な理論ははるかに詳細であり、この説明は完全なものとして解釈されるべきではありませんが、さらなる探求のための正しい方向を単に示すことを目的としています。あなたの主な目的は正則化の直観的な理解を得ることであるため、Simon Haykinによる第3版「ニューラルネットワークと学習マシン」の第7章から以下の説明を要約し、大幅に簡略化しました。
独立変数を使用して教師あり学習問題を再検討しましょう バツ私y私f
これをさらに進めるために、アダマールの「適切な」問題の用語を理解しましょう。問題は、次の3つの条件を満たす場合に適切です。
- バツ私y私
- バツ1バツ2f(x1)= f(x2)バツ1= x2
- f
教師あり学習では、次の理由からこれらの条件に違反する可能性があります。
- 特定の入力に対して個別の出力が存在しない場合があります。
- トレーニングサンプルには、一意の入出力マッピングを構築するのに十分な情報がない場合があります(異なるトレーニングサンプルで学習アルゴリズムを実行すると、異なるマッピング関数が生成されるため)。
- データのノイズにより、再構築プロセスに不確実性が加わり、安定性に影響する場合があります。
このような「不適切な」問題を解決するために、Tikhonovは、解に関する事前情報を埋め込む非負の関数を含めることで解を安定化する正則化法を提案しました。
事前情報の最も一般的な形式には、入出力マッピング関数がスムーズであるという前提が含まれます。つまり、類似した入力は類似した出力を生成します。
λfλ∞∞
したがって、正則化パラメーター λ
このような正規化されたコスト関数の例は次のとおりです。
線形回帰:
J(θ )= 1m∑mi = 1[ hθ(x私)− y私]2+ λ2 メートル∑nj = 1θ2j
ロジスティック回帰:
J(θ )= 1m∑mi = 1[ − y私L O G(hθ(x私))− (1 − y私)l o g(1 − hθ(x私))] + λ2 メートル∑nj = 1θ2j
θバツhθ(x )y
L2
正則化を適用することの最終的な効果は、モデルの複雑さを減らし、過剰適合を減らすことです。正則化の他のアプローチ(上記の例にはリストされていません)には、ノードをドロップアウトして単純なツリーにすることによる、回帰/分類ツリー、ブーストされたツリーなどの構造モデルの変更が含まれます。より最近では、これは、いわゆる「ディープラーニング」でニューラルネットワーク内のニューロン間の接続をドロップアウトすることにより適用されています。
Q3に対する具体的な答えは、ランダムフォレスト(または同様の投票方式)などの一部のアセンブルメソッドは、固有の方法、つまり、正規化されていないツリーのコレクションからの応答の投票と選出により正規化を達成することです。個々のツリーには過剰適合がありますが、その結果を「平均化」するプロセスにより、アンサンブルはトレーニングセットに過剰適合しません。
編集:
規則性の概念は公理集合論に属します。ポインタについてはこの記事を参照してください-en.wikipedia.org/wiki/Axiom_of_regularityいます。詳細については、 / /してください。詳細に興味がある場合は、このトピックをさらに調べてください。
ニューラルネットの正則化:逆伝播アルゴリズムの実行中に重みを調整する場合、線形回帰およびロジスティック回帰の例と同じ方法で正則化項がコスト関数に追加されます。したがって、正則化用語を追加すると、逆伝播がグローバルな最小値に到達するのが停止します。
ニューラルネットワークのバッチ正規化について説明している記事は次のとおりです。-バッチ正規化:内部共変量シフトの削減によるディープネットワークトレーニングの加速、Ioffe、Szegedy、2015。入力変数が正規化されている場合、ニューラルネットワークをトレーニングするための逆伝播がよりよく機能することが知られています。この論文では、著者らは、確率的勾配降下法で使用される各ミニバッチに正規化を適用して、ニューラルネットワークの多数の層をトレーニングする際の「勾配の消失」の問題を回避しました。彼らの論文で説明されているアルゴリズムは、アクティベーションの各レイヤーの各バッチで計算された平均と分散を、(NN重みに加えて)ミニバッチSGDで最適化された別のパラメーターセットとして扱います。アクティベーションは、トレーニングセット全体を使用して正規化されます。このアルゴリズムの詳細については、彼らの論文を参照してください。この方法を使用することにより、彼らは正規化にドロップアウトを使用することを避けることができたため、これは別のタイプの正規化であると主張しました。