ベイジアン対MLE、オーバーフィット問題


12

BishopのPRML本で、彼は、過剰適合は最尤推定(MLE)の問題であり、ベイジアンはそれを避けることができると言っています。

しかし、オーバーフィッティングはモデル選択に関する問題であり、パラメーター推定に使用される方法に関する問題ではないと思います。つまり、f x = s i n x )を介して生成されるデータセットがあるとしますD、今私は別のモデルを選択かもしれない Hを、私は、データをフィットし、1が最良であるかを調べるために。検討中のモデルが異なる次数を有する多項式のものであり、 H 1はオーダー1であり、 H 2は、順序2、 H 3は、順序9です。

f(x)=sin(x),x[0,1]
HiH1H2H3

今、私はデータに合うようにしようと 3機種のそれぞれに、各モデルは、と表記その偶然に、持っているワットのためのH 私をDwiHi

MLを使用して、私はモデルパラメータの点推定値があります、そしてH 1は、一方で、単純すぎるとなり、常にデータunderfitであるH 3があまりにも複雑で、データをオーバーフィットします、唯一のH 2は、データをうまくフィットします。wH1H3H2

私の質問は、

1)モデルはデータをオーバーフィットしますが、MLの問題ではなく、モデル自体の問題だと思います。なぜなら、H 1 MLを使用するとH 2が過適合にならないからです。私は正しいですか?H3H1,H2

2)ベイジアンと比較して、MLにはいくつかの欠点があります。モデルパラメーターポイント推定値を与えるだけであり、自信過剰だからです。一方、ベイジアンはパラメーターの最も可能性の高い値だけに依存するのではなく、観測されたデータDを与えられたパラメーターのすべての可能な値に依存しますか?wD

3)なぜベイジアンは過剰適合を回避または減少できるのですか?私が理解しているように、モデルの比較にベイジアンを使用できます。つまり、データ与えられると、検討中の各モデルの限界尤度(またはモデル証拠)を見つけ、最も限界尤度が高いものを選択できます。 ?もしそうなら、なぜですか?D

回答:


19

最適化は統計上のすべての悪の根源です。データの有限サンプルで評価されたいくつかの適切な基準を最適化することによりモデル1について選択を行うときはいつでも、基準をオーバーフィットするリスクがあります。つまり、一般化パフォーマンスの改善が得られ、代わりに、データサンプルの特性(ノイズなど)を活用することで得られます。ベイジアン法がうまく機能する理由は、何も最適化せず、代わりにすべての可能な選択肢をマージナライズ(統合)するためです。問題は、モデルに関する事前の信念の選択にあるため、1つの問題はなくなりましたが、その代わりに別の問題が現れます。1


これには、ベイジアン設定での証拠(限界尤度)の最大化が含まれます。この例については、私の論文のGaussian Process分類器の結果を参照してください。ハイパーパラメータが多すぎると、限界尤度を最適化するとモデルが悪化します(限界尤度に応じた選択は、多くのハイパー-この形式のオーバーフィッティングの結果としてのパラメーター)。1

GC CawleyおよびNLC Talbot、モデル選択における過剰適合とパフォーマンス評価におけるその後の選択バイアス、Journal of Machine Learning Research、2010年。Research、vol。11、pp。2079-2107、2010年7月。(pdf


+1、ありがとうございました。あなたの論文を読んで、さらに質問があるかどうかを確認します;-)
アボカド14年

1
最適化は通常、ほぼ統合と考えることができることに注意してください-ラプラス法はこの例です。最適化は通常、積分の適切な近似ではない場合に失敗します。そのため、なぜREMLが通常MLよりも優れているのですか。
確率論的

@probabilityislogic、私は理解しているかどうかわかりません、MLはMAPに少し似ています、統合は実行されません。ラプラス近似を使用する(私が見た方法で)ことは、統合したい関数の近似を最適化し、代わりにそれを統合するという意味で最適化することですが、まだ統合が進行中です。
ディクランマースピアル14

1
@dikran marsupial-おそらくそれを説明するより良い方法は、MLによってパラメーターを推定し、そのパラメーターをそのMLEと等しくなるように制約することによって、統合がしばしばよく近似されることです。ラプラス近似は、この直観に「修正係数」を提供します-REMLと同じ方法です。
確率論的

@probabilityislogicの返信に感謝します。考えてみます!
ディクランマースピアル14

7

一般的な応答として、「最小二乗」タイプの回帰モデルを使用している場合、回帰パラメーターに有益な事前情報を使用しない限り、実際にはベイとMLの間に大きな違いはありません。詳細に応じて:

H9H1はほとんどの場合「アンダーフィッティング」になります-明らかな曲率が失われるためです

2)これは、多項式展開のような「線形」には当てはまりません(「線形」は、パラメータではなくを意味します)バツ)。最小二乗法のML推定値は、情報価値のない事前分布または大きなサンプルサイズの下での事後平均と同じです。実際、ML推定値は、さまざまなモデルの下で「漸近的な」事後平均と考えることができることを示すことができます。

3)Bayesianアプローチは、適切な事前確率に対してのみ過剰適合を回避できます。これは、いくつかのフィッティングアルゴリズムで見られるペナルティ用語と同様の方法で動作します。たとえば、L2ペナルティ=通常の事前、L1ペナルティ=ラプラスの事前。


H9

H

H9

4

H1H2H3トレーニングインスタンスの数が十分に大きい場合にがまったくオーバーフィットしない可能性があります。

たとえば、ひどく誇張して、とします。2H1常にデータをオーバーフィットするため。

l1


不十分なトレーニングサンプルを使用した単純な仮説(例:h1、h2)は、与えられたいくつかのトレーニング例のモデルバイアスのために、アンダーフィッティング(cv)の例であり、オーバーフィッティングではありません。
イェクタ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.