ベイジアン手法が過剰適合しないのは本当ですか?


25

ベイジアン手法が過剰適合しないのは本当ですか?(この主張をするいくつかの論文やチュートリアルを見ました)

たとえば、ガウス過程をMNIST(手書き数字分類)に適用し、単一のサンプルのみを表示する場合、その単一のサンプルとは異なる入力であっても、差は小さいものの前の分布に戻りますか?


考えていました-「オーバーフィット」を定義できる数学的に正確な方法はありますか?可能であれば、可能性関数にフィーチャを組み込むことも、それを回避する前にフィーチャを組み込むこともできます。私の考えでは、この概念は「外れ値」に似ているように聞こえます。
確率論的

回答:


25

いいえ、そうではありません。ベイジアン法は確かにデータをオーバーフィットします。オーバーフィットに対してベイジアンメソッドをより堅牢にするものがいくつかあり、それらをより脆弱にすることもできます。

バイナリ仮説ではなくベイジアン仮説の組み合わせの性質により、帰無仮説手法の「真の」モデルが欠けている場合に多重比較が可能になります。ベイジアン事後分布は、変数の追加などのモデル構造の増加に効果的にペナルティーを課し、適合の改善に報います。ペナルティとゲインは、非ベイジアン手法の場合のような最適化ではなく、新しい情報からの確率のシフトです。

これは一般に、より堅牢な方法論を提供しますが、重要な制約があり、適切な事前分布を使用しています。平坦な事前分布を使用することで頻度主義の手法を模倣したい傾向がありますが、これは適切な解決策を保証するものではありません。ベイジアン法の過剰適合に関する記事がありますが、私にとっては、厳密に平坦な事前分布から始めることで、非ベイジアン法に「公平」になろうとすることに罪があるように思えます。難点は、尤度を正規化する上で事前確率が重要であることです。

ベイジアンモデルは、Waldの単語の許容性という意味で本質的に最適なモデルですが、そこには隠れたボギーマンがいます。Waldは、事前情報が実際の事前情報であり、使用している事前情報ではないことを前提としているため、編集者があまり情報を入れすぎないように気をつけています。それらは、周波数主義モデルと同じ意味で最適ではありません。頻繁な方法は、バイアスをかけずに分散を最小化する最適化から始まります。

これは情報を破棄するという点でコストのかかる最適化であり、Waldの意味では本質的に許容できませんが、頻繁に許容できます。そのため、フリークエンシー主義モデルは、偏りのないデータに最適な適合を提供します。ベイジアンモデルは、偏りがなく、データに最適ではありません。これは、過剰適合を最小限に抑えるための取引です。

ベイズモデルは本質的にバイアスのかかったモデルです。バイアスをかけないようにする特別な手順を講じない限り、通常はデータに適合しません。彼らの長所は、「真のモデル」を見つけるために代替方法よりも少ない情報を使用しないことであり、この追加情報により、特にサンプルから作業する場合、ベイズモデルは代替モデルよりもリスクが低くなりません。とは言っても、ベイズ法を体系的に「欺く」ランダムに抽出されたサンプルは常に存在します。

質問の2番目の部分については、単一のサンプルを分析する場合、後部はそのすべての部分で永久に変更され、2番目のサンプルで正確にすべての情報がキャンセルされない限り前の状態に戻りません。最初のサンプル。少なくとも理論的にはこれは事実です。実際には、事前確率が十分に有益であり、観測が十分に有益でない場合、影響は非常に小さく、有効桁数の制限のためにコンピューターが差異を測定できない可能性があります。コンピューターが後方の変化を処理するには効果が小さすぎる可能性があります。

したがって、答えは「はい」です。特にサンプルサイズが小さく、事前分布が不適切な場合は、ベイズ法を使用してサンプルをオーバーフィットできます。2番目の答えは「ノー」です。ベイズの定理は、以前のデータの影響を決して忘れませんが、その影響は非常に小さいため、計算では見逃します。


2
In それらは、バイアスをかけずに分散を最小化する最適化から始まります。彼らは何ですか?
リチャードハーディ

非常に少数のモデル(基本的にメジャー0のセット)のみが、不偏推定量の形成を許可します。たとえば、通常のモデルでは、不偏推定量はありません。実際、ほとんどの場合、尤度を最大化すると、偏った推定量になります。Nθσ2σ
アンドリューM

1
@AndrewM:通常のモデルにはstats.stackexchange.com/a/251128/17230の公平な推定量あります。σ
Scortchi -復活モニカ

11

知っておくべきことは、他の事実上どこでもそうであるように、ベイジアン手法の重要な問題はモデルの仕様の誤りです。

これは明らかなポイントですが、私はまだ話を共有すると思った。

学部生の後ろからのビネット...

ベイジアン粒子フィルタリングの古典的なアプリケーションは、部屋を動き回るロボットの位置を追跡することです。動きは不確実性を拡大し、センサーの読み取り値は不確実性を低減します。

これを行うためにいくつかのルーチンをコーディングしたことを覚えています。私は、真の値が与えられると、さまざまなソナー読み取り値を観測する可能性について、理にかなった理論的に動機付けられたモデルを作成しました。すべてが正確に導き出され、美しくコード化されました。その後、テストに行きます...

何が起こった?完全な失敗!どうして?私のパーティクルフィルターは、センサーの測定値がほとんどすべての不確実性を排除したとすぐに考えました。私の点群はある点まで崩壊しましたが、私のロボットは必ずしもその点にあるとは限りませんでした!

基本的に、私の尤度関数は悪かった。センサーの読み取り値は、思ったほど有益ではありませんでした。私はオーバーフィッティングでした。解決策?ガウスノイズを(かなりアドホックな方法で)大量に混合し、ポイントクラウドが崩壊しなくなり、フィルタリングがかなり美しくなりました。

道徳?

Boxがよく言っているように、「すべてのモデルが間違っていますが、一部のモデルは便利です。」ほぼ確実に、真の尤度関数は得られず、十分に外れると、ベイジアン手法は恐ろしくひどくなり、過剰適合になる可能性があります。

事前確率を追加しても、観測値がIIDであると仮定することから生じる問題を魔法のように解決するわけではありません。


3
「学部生の後ろからのビネット...ベイジアン粒子フィルタリングの古典的なアプリケーションは、部屋を動き回るロボットの位置を追跡することです」...学部生はどこにいましたか?:)
クリフAB
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.