モデル選択のための最良のアプローチベイジアンまたは交差検証？

さまざまなモデルまたは含める機能の数を選択しようとすると、2つのアプローチが考えられます。

データをトレーニングセットとテストセットに分割します。さらに良いことには、ブートストラップまたはk-fold交差検証を使用します。トレーニングセットで毎回トレーニングを行い、テストセットの誤差を計算します。テストエラーとパラメーターの数をプロットします。通常、次のようになります。
パラメーターの値を積分することにより、モデルの尤度を計算します。すなわち、を計算し、これをパラメーターの数に対してプロットします。次に、次のようなものを取得します。 $\int_\theta P(D|\theta)P(\theta)d \theta$

だから私の質問は：

これらのアプローチは、この問題を解決するのに適していますか（モデルに含めるパラメーターの数を決定するか、いくつかのモデルから選択する）。
それらは同等ですか？おそらくない。特定の仮定の下で、または実際に同じ最適モデルを提供しますか？
ベイジアンモデルなどで事前知識を指定するという通常の哲学的な違い以外に、各アプローチの長所と短所は何ですか？どちらを選びましたか？

更新： AICとBICの比較に関する関連する質問も見つけました。私の方法1はAICと漸近的に等価であり、方法2はBICと漸近的に関連しているようです。しかし、BICはLeave-One-Out CVと同等であることも読んでいます。これは、LOO CVがKフォールドCVに等しい場合、トレーニングエラーの最小値とベイジアン尤度の最大値が等しいことを意味します。おそらく非常に興味深い論文「Jun Shaoによる「線形モデル選択のための漸近理論」」はこれらの問題に関連しています。

— highBandWidth
ソース

完全な答えはありませんが、「機能の数を選択する」ためにどちらの方法も使用することは通常考えないでしょう。一般的に、機械学習とベイジアン統計は、すべての機能がある程度の最小の影響しか持たない可能性があるため、すべての機能を含めるように解釈します。ただし、相対的なモデルの複雑さの問題は依然として適切だと思います。また、あなたがほのめかすベイジアン推論を実際に実行したことはありません。kフォールドやブートストラップの単純さに比べて、実際には面倒になりすぎているようです。

— シアパークス

Shaoペーパーは線形モデルでのみ機能することに注意してください。実際、単純な構造のみが、複雑さの尺度として機能の数を使用できるようにし、これらすべての情報基準を強化しています。

AIC（BICではありません！）は、弱い仮定の下での、1つだけのクロス検証と漸近的に等価です（ストーンによる「交差検証と赤池の基準によるモデルの選択の漸近的等価」（1977））。あなたが言及する質問の出典は間違っていて、コメントでロブ・ヒンドマンによって修正されました。間違ったアイデアを広めるのをやめるには、ここで修正するのも良い考えだと思いました。

— リチャードハーディ

回答:

これらのアプローチは、この問題を解決するのに適していますか（モデルに含めるパラメーターの数を決定するか、いくつかのモデルから選択する）。

どちらでもよい、はい。検討するモデルのリストから最適な予測モデルを取得することに関心がある場合は、分割/相互検証のアプローチが適切に機能します。どのモデル（推定モデルのリスト）が実際にデータを生成するかを知りたい場合は、2番目のアプローチ（モデルの事後確率を評価する）が必要です。

それらは同等ですか？おそらくない。特定の仮定の下で、または実際に同じ最適モデルを提供しますか？

いいえ、それらは一般的に同等ではありません。たとえば、AIC（赤池の情報量基準）を使用して「最適な」モデルを選択すると、クロス検証にほぼ対応します。使用BIC（ベイズ情報量規準）再び、およそ、事後確率を使用することに相当します。これらは同じ基準ではないため、一般的に異なる選択につながることを期待する必要があります。彼らは同じ答えを与えることができます-最良を予測するモデルが真実である場合はいつでも-多くの場合、最適なモデルは実際には過剰適合であり、アプローチ間の不一致につながります。

彼らは実際に同意しますか？それはあなたの「練習」が何を伴うかに依存します。両方の方法で試してみてください。

ベイジアンモデルなどで事前知識を指定するという通常の哲学的な違い以外に、各アプローチの長所と短所は何ですか？どちらを選びますか？

通常、事後確率を計算するよりも、相互検証の計算を行う方がはるかに簡単です。
「本当の」モデルがあなたが選んでいるリストの中にあるという説得力のあるケースを作るのはしばしば難しいです。これは事後確率の使用に関する問題ですが、交差検証ではありません
どちらの方法も、かなり任意の定数を使用する傾向があります。変数の数に関して、予測の追加単位はいくらですか？各モデルをアプリオリにどれだけ信じますか？
- おそらく相互検証を選択します。しかし、コミットする前に、このモデル選択が行われた理由、つまり、選択されたモデルが何に使用されるのかについて多くを知りたいと思います。たとえば因果関係の推論が必要な場合、どちらの形式のモデル選択も適切ではありません。

— ゲスト
ソース

最適化は統計上のすべての悪の根源です！; o）

データの有限サンプルで評価される基準に基づいてモデルを選択しようとすると、モデル選択基準を過剰に適合させるリスクが生じ、最初よりも悪いモデルになってしまいます。交差検定と限界尤度はどちらも賢明なモデル選択基準ですが、どちらもデータの有限サンプルに依存しています（AICおよびBICと同様に-複雑さのペナルティは役立ちますが、この問題は解決しません）。これは機械学習の大きな問題であることがわかりました。

GC CawleyおよびNLC Talbot、モデル選択の過剰適合とパフォーマンス評価におけるその後の選択バイアス、Journal of Machine Learning Research、2010年。Research、vol。11、pp。2079-2107、2010年7月。（www）

ベイジアンの観点からは、すべてのモデルの選択とパラメーターを統合することをお勧めします。最適化や選択を行わないと、オーバーフィットが難しくなります。欠点は、MCMCで解決する必要のある困難な積分に陥ることです。最高の予測パフォーマンスが必要な場合は、完全にベイジアンのアプローチをお勧めします。データを理解する場合は、多くの場合、最適なモデルを選択すると役立ちます。ただし、データをリサンプリングし、毎回異なるモデルで終わる場合、フィッティング手順が不安定であり、データを理解する上で信頼できるモデルはないことを意味します。

交差検証と証拠の重要な違いの1つは、限界尤度の値はモデルが誤って指定されていないと仮定し（基本的にモデルの基本形式が適切である）、誤解を招く結果が生じる場合があることに注意してください。相互検証ではこのような仮定は行われません。つまり、もう少し堅牢になります。

— ディクラン・マースピアル
ソース

ベイジアン統合は強力なアプローチです。しかし、モデルの選択がこれを行う正しい方法であるかどうかは常に疑問です。動機は何ですか？柔軟でぴったりフィットする完全なモデルを作成してみませんか？

— フランクハレル

@FrankHarrellの多くの柔軟なモデルには、正則化用語やその他のハイパーパラメーターが含まれます。これらのチューニングもモデルの選択であり、選択基準を過剰適合させるという同じ問題の影響を受けます。フィッティングは過剰フィッティングのリスクをもたらし、それはすべてのレベルで適用されます。ただし、モデルの構造についてアプリオリを知っている場合は、その専門知識を使用する必要があります。

— ディクランMarsupial

チューニングを必要としない方法を探すのが最善ですが、これは常に可能とは限りません。私の主なポイントは、モデルの選択がモデルの選択よりもうまく機能し、特徴の選択が高貴な目標であると仮定しないことです。

— フランクハレル

@FrankHarrell機能の選択が役立つことはほとんどありません。可能な場合は最適化を回避する必要があります。これには、データの有限サンプルに基づいてモデルを選択/調整することが含まれます（もちろん、サンプルが大きいほどリスクは低くなります）。

— ディクランマースピアル