古典的なNNよりもベイズの正則化されたNN


8

古典的なニューラルネットワークは通常、十分な汎化能力を欠いており、通常は不正確な予測をもたらすと主張するいくつかの研究記事を見てきました。ベイズの正則化ANN(BRANN)は、標準の逆伝播ネットよりも堅牢であり、長い相互検証の必要性。

ただし、これらの記事は、この主張に対して適切な理由付け/正当化を行うには不十分です。

BRANNはどのような方法で、またはどのような目的で従来のNNよりも優れていますか?なぜ?

回答:


8

ニューラルネットの主な問題は、過剰適合を防ぐことです。ベイジアン正則化(重みの大きさを制限する)はこれへの1つのアプローチであり、構造的安定化(つまり、非表示ノードおよび/または重みの数を制限することは別の方法です)。どちらのアプローチも万能薬ではありません。一般に、正則化と構造安定化の組み合わせの方が優れています(つまり、ネットワークアーキテクチャを選択するには、相互検証を再度行う必要があります。ベイジアンエビデンスを使用すると、結果としてエビデンスが偏るので、悪い考えです。正則化パラメーターの調整での使用と、モデルの指定ミスがある場合は信頼できません)。どちらが最も効果的に機能するかは、本質的に問題に依存します。調べるための最善の方法は、両方を試してみることです(たとえば、相互検証を使用して、偏りのない方法でパフォーマンスを推定します)。

また、正規化はベイジアンである必要はありません。代わりに交差検証を使用してネットワークを正規化する量を選択できます。ベイジアン手法の問題の1つは、モデルが指定されていない場合に悪い結果をもたらす可能性があることです。この場合、交差検証に基づく正則化手法の方が堅牢になる可能性があります。

別の重要な点は、すべてのベイジアンニューラルネットワークの定式化が同じというわけではないということです。MacKayのエビデンスフレームワークは、それが使用するラプラス近似が重みの歪んだ事後分布に対してあまりうまく機能しないため、分類問題に対してはうまく機能しない傾向があります。ラドフォードニールのMCMCアプローチは、これらのタスクに適している可能性がありますが、計算コストが高く、収束などの評価はそれほど簡単ではありません。

ただし、ニューラルネットワークモデルはかなり手間がかかり、実際にはカーネルメソッドまたはガウスプロセスから優れた汎化パフォーマンスを取得する方が簡単なので、特にトレーニングデータが比較的少ない場合は、ほとんどのタスクで代わりに使用します。

私はこれについて非常に広範な実証研究を最近行いましたが、実務家に関心のある実証研究を受け入れるが、新しい研究内容はほとんどないジャーナルを見つける必要があります。


「証拠が正則化パラメーターの調整で使用された結果、偏りある」とはどういう意味ですか?データの推定精度とモデルの重みに関する信念に基づいて、これらのパラメーター(通常はビショップ表記のおよび)が手動で入力されます。βαβ
イッセンデボーア2017

@YtsendeBoer証拠(限界尤度)は有限のデータセットに対して評価されるため、その値は特定のサンプルに依存し、そのようなコンポーネントには本質的に単なるノイズであるコンポーネントがあります。エビデンスを最適化してモデルを調整する場合、明らかな改善の一部は、限界尤度と実際にパフォーマンスを改善する変更にノイズを適合させることによるものです。したがって、最適化後のエビデンスはモデルの実際のパフォーマンスについて楽観的な見解を与えるため、たとえばその後の構造最適化の良いガイドにはなりません。
Dikran Marsupial 2017

エビデンスを最適化してモデルを調整すると過剰適合につながるため、ベイズ正則化が機能しないことを示唆しているようです。ただし、モデルは、モデルの重みの前の尤度時間を最適化することによって調整する必要があります(および固定したままにします)。その後、証拠を評価することにより、最良のモデルを選択できます。バイアスは、モデルの重み、またはより悪い場合にはデータの前に最も「適切」なものを見つけるために証拠を最適化した場合にのみ導入されるようです。この方法で選択されたモデルは信頼できないため、新しいデータで検証する必要があることに同意します。βαβ
イッセンデボーア2017

と一定に保つ場合、それはベイズ正則化ではなく、正則化です。エビデンスに応じて最適なモデルを選択すると、それがエビデンスを最適化し、モデル選択基準を過剰適合させる可能性をもたらします。ベイジアン正則化(つまり、MacKayの証拠フレームワーク)が機能しない、ある程度までは機能しませんが、データが少なすぎたり、ハイパーパラメーター(ARDなど)が多すぎると失敗する可能性があります。エビデンスの過剰最適化/適合は、データの過剰適合または過小適合を引き起こす可能性があります。b e t aalphabeta
Dikran Marsupial 2017

4

通常のANNと同じ目的でBRANNを使用します。通常、分類と回帰です。Dikran Marsupialが言うように、オーバーフィッティングに対してより堅牢であり、オーバーフィッティングに遭遇することなく、より多くのニューロンを扱うことができるので、より優れています。さらに、出力にエラーバーが表示されます。つまり、各出力の信頼度の測定値が得られます。

それにもかかわらず、dropoutやmaxout などの新しい手法は、使いやすく、より良い結果が得られるため、この手法をオーバーライドしたようです。ここでドロップアウトは、ある意味でスケーリングと正則化を実行することが示されています。

それでも、詳細に興味がある場合は、David MacKay(この手法でいくつかのコンテストで優勝した人)の論文を確認できます。


あなたは本当にBRANNsのヘルプ等、過剰適合を防止する方法を説明していない
nbro
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.