規則性と正則化とは何ですか?


12

機械学習を勉強するにつれて、これらの言葉をどんどん聞いています。実際、方程式の規則性に取り組んでフィールズメダルを獲得した人もいます。だから、これは統計物理学/数学から機械学習に至る用語です。当然、私が尋ねた多くの人々は、それを直感的に説明できませんでした。

ドロップアウトなどのメソッドが正則化に役立つことを知っています(=>彼らはオーバーフィットを減らすと言いますが、実際にはそれがわかりません:それがオーバーフィットを減らすだけなら、なぜそれをアンチオーバーフィットメソッドと呼ばないのですか?もっと私が思うので、この質問)。

あなたが説明できるなら、私は本当に感謝しています(私は素朴なMLコミュニティもそうでしょう!)

  1. 規則性をどのように定義しますか?規則性とは何ですか?

  2. 正規化は、規則性を保証する方法ですか?すなわち、規則性をキャプチャしますか?

  3. ドロップアウトなどのメソッドの組み立て、正規化メソッドがすべて正規化を行っていると主張するのはなぜですか?

  4. なぜ機械学習でこれら(規則性/正規化)が出てくるのですか?

ご協力ありがとうございます。

回答:


8

正則化は、トレーニングデータの有限サンプルから学習しようとしているほとんどすべての機械学習アルゴリズムで採用されています。

正則化の概念の起源を説明することにより、特定の質問に間接的に答えようとします。完全な理論ははるかに詳細であり、この説明は完全なものとして解釈されるべきではありませんが、さらなる探求のための正しい方向を単に示すことを目的としています。あなたの主な目的は正則化の直観的な理解を得ることであるため、Simon Haykinによる第3版「ニューラルネットワークと学習マシン」の第7章から以下の説明を要約し、大幅に簡略化しました。

独立変数を使用して教師あり学習問題を再検討しましょう バツyf

これをさらに進めるために、アダマールの「適切な」問題の用語を理解しましょう。問題は、次の3つの条件を満たす場合に適切です。

  1. バツy
  2. バツ1バツ2fバツ1=fバツ2バツ1=バツ2
  3. f

教師あり学習では、次の理由からこれらの条件に違反する可能性があります。

  1. 特定の入力に対して個別の出力が存在しない場合があります。
  2. トレーニングサンプルには、一意の入出力マッピングを構築するのに十分な情報がない場合があります(異なるトレーニングサンプルで学習アルゴリズムを実行すると、異なるマッピング関数が生成されるため)。
  3. データのノイズにより、再構築プロセスに不確実性が加わり、安定性に影響する場合があります。

このような「不適切な」問題を解決するために、Tikhonovは、解に関する事前情報を埋め込む非負の関数を含めることで解を安定化する正則化法を提案しました。

事前情報の最も一般的な形式には、入出力マッピング関数がスムーズであるという前提が含まれます。つまり、類似した入力は類似した出力を生成します。

λfλ

したがって、正則化パラメーター λ

このような正規化されたコスト関数の例は次のとおりです。

線形回帰:

Jθ=1m=1m[hθバツy]2+λ2mj=1nθj2

ロジスティック回帰:

Jθ=1m=1m[yloghθバツ1ylog1hθバツ]+λ2mj=1nθj2

θバツhθバツy

L2

正則化を適用することの最終的な効果は、モデルの複雑さを減らし、過剰適合を減らすことです。正則化の他のアプローチ(上記の例にはリストされていません)には、ノードをドロップアウトして単純なツリーにすることによる、回帰/分類ツリー、ブーストされたツリーなどの構造モデルの変更が含まれます。より最近では、これは、いわゆる「ディープラーニング」でニューラルネットワーク内のニューロン間の接続をドロップアウトすることにより適用されています。

Q3に対する具体的な答えは、ランダムフォレスト(または同様の投票方式)などの一部のアセンブルメソッドは、固有の方法、つまり、正規化されていないツリーのコレクションからの応答の投票と選出により正規化を達成することです。個々のツリーには過剰適合がありますが、その結果を「平均化」するプロセスにより、アンサンブルはトレーニングセットに過剰適合しません。

編集:

規則性の概念は公理集合論に属します。ポインタについてはこの記事を参照してください-en.wikipedia.org/wiki/Axiom_of_regularityいます。詳細については、 / /してください。詳細に興味がある場合は、このトピックをさらに調べてください。

ニューラルネットの正則化:逆伝播アルゴリズムの実行中に重みを調整する場合、線形回帰およびロジスティック回帰の例と同じ方法で正則化項がコスト関数に追加されます。したがって、正則化用語を追加すると、逆伝播がグローバルな最小値に到達するのが停止します。

ニューラルネットワークのバッチ正規化について説明している記事は次のとおりです。-バッチ正規化:内部共変量シフトの削減によるディープネットワークトレーニングの加速、Ioffe、Szegedy、2015。入力変数が正規化されている場合、ニューラルネットワークをトレーニングするための逆伝播がよりよく機能することが知られています。この論文では、著者らは、確率的勾配降下法で使用される各ミニバッチに正規化を適用して、ニューラルネットワークの多数の層をトレーニングする際の「勾配の消失」の問題を回避しました。彼らの論文で説明されているアルゴリズムは、アクティベーションの各レイヤーの各バッチで計算された平均と分散を、(NN重みに加えて)ミニバッチSGDで最適化された別のパラメーターセットとして扱います。アクティベーションは、トレーニングセット全体を使用して正規化されます。このアルゴリズムの詳細については、彼らの論文を参照してください。この方法を使用することにより、彼らは正規化にドロップアウトを使用することを避けることができたため、これは別のタイプの正規化であると主張しました。


すばらしい回答をありがとう。正規化などの方法が正則化を達成する方法を数学的に少し説明していただけますか?Goodfellowの講演で、彼は微分可能なものは何でもニューラルネットの正則化として機能できると述べました。また、規則性とは何か知っていますか?それらは単にパターンを意味するのでしょうか、それともその背後に数学がありますか?再度、感謝します。
ラファエル

返信いただきありがとうございます。話を思い出せません。ニューラルネットでは、バッチ正規化などのレイヤーを追加します。彼らが正則化に貢献していることを知りたいですか?
ラファエル

コメントに回答するとともに、以前のコメントで与えられた回答を追加するように編集されました。
サンディープS.サンドゥ

3

質問1

正規の定義は知りませんが、あなたの質問は、この用語が異なる意味で使用されていることを示唆しています。簡単な例から始めましょう(質問2に答えます)。

質問2

リッジ回帰は良い出発点であってもよいです。これは、特異行列によって生じる問題を回避する正則化手法です。

ただし、勾配ブースティング法(例)で定義されている「正規化パラメーター」は、モデルの複雑さ低くするためのものです。

質問3

正則としての正規化には別の意味があります(この用語は誤解を招く可能があります)。「勾配降下の観点から」複雑な問題をより単純なものに変えます。ニューラルネットワークを較正する必要はありませんが、較正中に本当に役立ちます。(ただし、任意の関数のグローバルな極値を見つけることができれば、正規化は必要ないことに注意してください)

質問4

正則化(モデルの複雑さを軽減する方法として)は、過剰適合を減らすために使用されます。モデルが複雑でないほど、オーバーフィットする可能性は低くなります。

さておき

S. Watanabeは、彼の研究でこの用語を厳密に使用しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.