それで私はあなたが参照している過剰適合に関する質問に答えました、そして私はビデオを見てそしてブログ投稿を読みました。Radford Nealは、ベイジアンモデルが過適合しないと言っていません。オーバーフィッティングとは、ノイズが信号として扱われ、パラメーター推定に蓄積される現象であることを思い出してください。モデル選択エラーの原因はそれだけではありません。Nealの議論はより幅広いものですが、サンプルサイズを小さくするというアイデアに挑戦することで、過剰適合の議論に挑戦しました。
ベイジアンモデルはすべてのベイジアンモデルオーバーフィットにオーバーフィットできるという以前の投稿を部分的に修正しますが、予測を改善する方法でそれを行います。繰り返しになりますが、信号とノイズの混同の定義に戻ると、ベイジアン法の不確実性、事後分布は、信号とノイズの不確実性の定量化です。そうすることで、事後全体が推論と予測に使用されるので、ベイズ法はノイズを信号の推定に埋め込んでいます。モデル分類誤差の過剰適合やその他の原因は、ベイズ法の別のタイプの問題です。
簡単にするために、馬の話の構造を採用し、線形回帰に焦点を当て、ディープラーニングの議論を避けましょう。彼が指摘するように、彼が言及する代替方法は関数の構成にすぎず、線形の論理間に直接リンクがあるためです回帰とディープラーニング。
y= β0+ β1バツ1+ β2バツ2+ β3バツ3。
Nn1,n2n1n2
m1…8
y=β0+β1x1+β2x2+β3x3,
y=β0,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3,
y=β0+β1x1+β2x2,
y=β0+β1x1+β3x3,
y=β0+β2x2+β3x3,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3.
n1,
実際の例を示すために、破産の78モデルをテストしました。78モデルのうち、76の事後確率の合計は、約1万分の1%でした。他の2つのモデルは、それぞれおよそ54パーセントと46パーセントでした。幸いにも、それらは変数を共有しませんでした。これにより、両方のモデルを選択して他の76を無視することができました。両方のデータポイントがすべてある場合、2つのモデルの事後確率に基づいて予測を平均し、データポイントが欠落しているときに1つのモデルのみを使用して、その他。私にはトレーニングセットと検証セットがありましたが、フリークエントリストがそれらを持っているのと同じ理由ではありませんでした。さらに、2つのビジネスサイクルにわたる毎日の終わりに、私は後日、毎日のデータを更新しました。つまり、検証セットの最後のモデルは、トレーニングセットの最後のモデルではありませんでした。ベイジアンモデルは学習を停止しませんが、頻度モデルは停止します。
y=β0+β1x1+β2x2+β3x3.
y=β0+β1x1+β3x3.
ni2
モデルはベイジアン思考のパラメーターであり、そのためランダムであり、必要に応じて不確実です。その不確実性は、検証プロセス中に終了しません。継続的に更新されます。
ベイジアン手法とフリークエンティスト手法の違いにより、他にも考慮すべきケースがあります。1つ目はパラメーターの推論から、2つ目は形式的な予測から来ています。それらはベイズ法と同じではありません。ベイズ法は、推論と意思決定を正式に分離します。また、パラメーターの推定と予測を分離します。
σ2^<k
kn2n1
n1n1n2n2
n1Pr(x~=k|X)x~Xθ? 頻繁な予測システムは存在しますが、ほとんどの人はポイント推定を真のパラメーターとして扱い、残差を計算します。ベイズ法は、1つの単一の点ではなく、予測密度に対して各予測をスコアリングします。これらの予測は、頻出解で使用される点法とは異なるパラメーターに依存しません。
n1+n2>n1
重要な事前情報がなく、点推定ではなく頻度予測値を使用する場合、固定サンプルの場合、単一のモデルを選択すると、ベイジアン法と頻度法の結果は同じになります。以前の情報がある場合、ベイズ法はより正確な予測を生成する傾向があります。この差は実際には非常に大きくなる可能性があります。さらに、モデルの平均化がある場合、ベイジアン法がより堅牢になる可能性が非常に高くなります。モデル選択を使用してベイズ予測をフリーズする場合、頻度予測を使用した頻度モデルを使用することに違いはありません。
データを交換できないため、テストと検証セットを使用しました。その結果、2つの問題を解決する必要がありました。1つ目は、MCMCメソッドのバーンインに似ています。テストシーケンスを開始するには、一連の適切なパラメーター推定値が必要だったので、妥当な事前密度を得るために50年前のデータを使用して、検証テストを開始しました。2番目の問題は、テストが疑問視されないように、テストに何らかの標準化された期間が必要だったことです。私は、NBERが発表した以前の2つのビジネスサイクルを使用しました。