ベイジアンがテストセットを必要としないのは本当ですか?


9

私は最近、Eric J. Maによるこの講演を、彼のブログエントリをチェックしました。彼はRadford Nealを引用しています。ベイジアンモデルはオーバーフィットしない(しかし、オーバーフィットすることができる)こと、およびそれらを使用する場合、検証するためのテストセット(私は引用符が検証セットを使用してパラメータを調整することについて話しているようです)。正直に言って、私には説得力がなく、本にアクセスすることもできないので、そのような声明に対して、または反対して、より詳細で厳密な議論をしてもらえますか?

ちなみに、その間、エリック・マーは私に同じトピックに関するこの議論を指摘しました。


3
その話に関するこの議論の1つの大きな穴:MCMCを実行している場合、事後を完全に調査しないと、推論は完全に無効になります。ベイジアンニューラルネットワークで推論を行っている場合、MCMCを使用して事後の非常に大きな部分を探索したことはほぼ確実です。したがって、データを分割して推論を再確認することをお勧めします。
Cliff AB

考慮すべきことの1つは、何を評価または検証するかです。私たちが持っているすべての情報を(以前または可能性のいずれかで)使用していない可能性があります。モデルの適合性をチェックすると、この質問への回答に役立ちます。
確率確率

回答:


5

適切にキャプチャされた事前情報を反映する「1つの真のモデル」と「真の事前分布」を使用する場合、ベイジアンに本当に過剰適合の問題がなく、非常に少ないデータが与えられた事後予測分布が適切に不確実であることがわかっている限り、 。ただし、ある種の実用的に選択されたモデルを使用する場合(つまり、ハザード率が一定であり、指数モデルが適切であるか、または一部の共変量がモデルにない=係数ゼロの前の点など)デフォルトの情報量のない、または正規化の事前確率。これがまだ当てはまるかどうかは、実際にはわかりません。その場合、(ハイパー)優先順位の選択にはある程度の恣意性があり、サンプル外の予測が適切になる場合とそうでない場合があります。

したがって、ハイパーパラメータの選択(=ハイパープライアのパラメータ)と選択された尤度の組み合わせが適切に機能するかどうかを質問することは非常に合理的です。実際、ハイパーパラメーターを調整して、必要な予測パフォーマンスを得ることが適切であると簡単に判断できます。その観点から、ハイパーパラメータを調整するための検証セット(または相互検証)とパフォーマンスを確認するためのテストセットは完全に理にかなっています。

これは彼のブログでのAndrew Gelmanの多くの議論と密接に関連していると思います(たとえば、スタンについてはLOOのブログエントリ1ブログエントリ2ブログエントリ3を参照し、事後予測チェックについてのディスカッション)。 (ある意味では正しい)は、ベイジアンはモデルが理にかなっているかどうか、および実用的なベイジアンモデルの評価についてチェックすべきではないと主張しています。

もちろん、事前情報がほとんどなく、やや有益な事前情報を使用したい設定でベイジアン法を使用することに最も関心があることはよくあります。その時点で、テストセットの検証と評価を行うために十分なデータを取得するのはやや難しいかもしれません。


2

それで私はあなたが参照している過剰適合に関する質問に答えました、そして私はビデオを見てそしてブログ投稿を読みました。Radford Nealは、ベイジアンモデルが過適合しないと言っていません。オーバーフィッティングとは、ノイズが信号として扱われ、パラメーター推定に蓄積される現象であることを思い出してください。モデル選択エラーの原因はそれだけではありません。Nealの議論はより幅広いものですが、サンプルサイズを小さくするというアイデアに挑戦することで、過剰適合の議論に挑戦しました。

ベイジアンモデルはすべてのベイジアンモデルオーバーフィットにオーバーフィットできるという以前の投稿を部分的に修正しますが、予測を改善する方法でそれを行います。繰り返しになりますが、信号とノイズの混同の定義に戻ると、ベイジアン法の不確実性、事後分布は、信号とノイズの不確実性の定量化です。そうすることで、事後全体が推論と予測に使用されるので、ベイズ法はノイズを信号の推定に埋め込んでいます。モデル分類誤差の過剰適合やその他の原因は、ベイズ法の別のタイプの問題です。

簡単にするために、馬の話の構造を採用し、線形回帰に焦点を当て、ディープラーニングの議論を避けましょう。彼が指摘するように、彼が言及する代替方法は関数の構成にすぎず、線形の論理間に直接リンクがあるためです回帰とディープラーニング。

y=β0+β1x1+β2x2+β3x3.
Nn1,n2n1n2

m18

y=β0+β1x1+β2x2+β3x3,
y=β0,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3,
y=β0+β1x1+β2x2,
y=β0+β1x1+β3x3,
y=β0+β2x2+β3x3,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3.

n1,

実際の例を示すために、破産の78モデルをテストしました。78モデルのうち、76の事後確率の合計は、約1万分の1%でした。他の2つのモデルは、それぞれおよそ54パーセントと46パーセントでした。幸いにも、それらは変数を共有しませんでした。これにより、両方のモデルを選択して他の76を無視することができました。両方のデータポイントがすべてある場合、2つのモデルの事後確率に基づいて予測を平均し、データポイントが欠落しているときに1つのモデルのみを使用して、その他。私にはトレーニングセットと検証セットがありましたが、フリークエントリストがそれらを持っているのと同じ理由ではありませんでした。さらに、2つのビジネスサイクルにわたる毎日の終わりに、私は後日、毎日のデータを更新しました。つまり、検証セットの最後のモデルは、トレーニングセットの最後のモデルではありませんでした。ベイジアンモデルは学習を停止しませんが、頻度モデルは停止します。

y=β0+β1x1+β2x2+β3x3.
y=β0+β1x1+β3x3.

n2i

モデルはベイジアン思考のパラメーターであり、そのためランダムであり、必要に応じて不確実です。その不確実性は、検証プロセス中に終了しません。継続的に更新されます。

ベイジアン手法とフリークエンティスト手法の違いにより、他にも考慮すべきケースがあります。1つ目はパラメーターの推論から、2つ目は形式的な予測から来ています。それらはベイズ法と同じではありません。ベイズ法は、推論と意思決定を正式に分離します。また、パラメーターの推定と予測を分離します。

σ2^<k

kn2n1

n1n1n2n2

n1Pr(x~=k|X)x~Xθ? 頻繁な予測システムは存在しますが、ほとんどの人はポイント推定を真のパラメーターとして扱い、残差を計算します。ベイズ法は、1つの単一の点ではなく、予測密度に対して各予測をスコアリングします。これらの予測は、頻出解で使用される点法とは異なるパラメーターに依存しません。

n1+n2>n1

重要な事前情報がなく、点推定ではなく頻度予測値を使用する場合、固定サンプルの場合、単一のモデルを選択すると、ベイジアン法と頻度法の結果は同じになります。以前の情報がある場合、ベイズ法はより正確な予測を生成する傾向があります。この差は実際には非常に大きくなる可能性があります。さらに、モデルの平均化がある場合、ベイジアン法がより堅牢になる可能性が非常に高くなります。モデル選択を使用してベイズ予測をフリーズする場合、頻度予測を使用した頻度モデルを使用することに違いはありません。

データを交換できないため、テストと検証セットを使用しました。その結果、2つの問題を解決する必要がありました。1つ目は、MCMCメソッドのバーンインに似ています。テストシーケンスを開始するには、一連の適切なパラメーター推定値が必要だったので、妥当な事前密度を得るために50年前のデータを使用して、検証テストを開始しました。2番目の問題は、テストが疑問視されないように、テストに何らかの標準化された期間が必要だったことです。私は、NBERが発表した以前の2つのビジネスサイクルを使用しました。


しかし、その後、「情報量の少ない」事前分布を持つ線形回帰モデルのMAPを推定したとします。これは、モデルの最尤推定値を取得することと同等であるため、交換可能であることを前提として、MLもテストセットを必要としませんか?
Tim

「過剰適合とは、ノイズが信号として扱われ、パラメーター推定に蓄積される現象のことです。」この定義は、加法性ノイズモデルに固有のものだと思います。そうでなければ、過適合vs過適合はそれほど明確に定義されていません。
Cagdas Ozgenc

@CagdasOzgencありがとう。編集の提案はありますか?
Dave Harris

@Tim私はMAP推定量について言及していません。問題をMAP推定量にまで減らすと、ロバスト性が失われます。MAPエスティメータは、密度に対するコスト関数を最小化するポイントです。密度が十分な統計量を欠いている場合、これは予測にとって問題になる可能性があります。MAPエスティメータは、本質的に情報を失います。MAPエスティメータを使用していた場合、これは元の質問には含まれておらず、明らかにMaのプレゼンテーションの一部でもありません。その場合、別の問題のセットを自分で作成します。
Dave Harris

@Tim MAP推定器はベイズ決定理論に基づいており、ベイズ推定と推論のオーバーレイです。MAPは便利です。利便性を選ぶときに支払うべき代償があります。オールオアナッシングコスト関数が真のコスト関数でない限り、情報と正確さの両方を引き渡しています。また、馬のプレゼンテーションで提案されたものとは異なる方法論の問題が発生します。
デイブ・ハリス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.