ハイパーパラメーターを推定するためのクロス検証と経験的ベイズ


20

階層モデル与えられた場合、モデルに適合する2段階のプロセスが必要です。最初に、少数のハイパーパラメーターθを修正してから、残りのパラメーターBayでベイジアン推論を行います。ハイパーパラメーターを修正するために、2つのオプションを検討しています。p(x|ϕ,θ)θϕ

  1. 使用経験的ベイズ(EB)と周辺尤度の最大化(高次元のパラメータを含むモデルの残りの部分を統合します)。p(all data|θ
  2. k- fold cross validation などの相互検証(CV)手法を使用して、尤度p テストデータ| トレーニングデータθ を最大化するθを選択します。kθpテストデータ|トレーニングデータθ

EBの利点は、すべてのデータを一度に使用できることです。一方、CVの場合、(可能性として)モデル尤度を複数回計算し、を検索する必要があります。EBとCVのパフォーマンスは多くの場合同等であり(*)、多くの場合、EBは推定が高速です。θ

質問:2つをリンクする理論的基盤はありますか(たとえば、EBとCVは大きなデータの制限で同じです)。または、EBを経験的リスクなどの一般化可能性の基準にリンクしていますか?誰かが良い参考資料を指すことができますか?


(*)例として、ここにマーフィーの機械学習、セクション7.6.4からの図があります。そこで彼は、リッジ回帰については両方の手順が非常に類似した結果をもたらすと言います。

マーフィー-経験的ベイズ対CV

マーフィーはまた、CVに対する経験的ベイズの基本的な実際的な利点(「証拠手順」と呼びます)は、が多数のハイパーパラメーターで構成される場合(たとえば、自動関連性決定またはARDのように、各機能の個別のペナルティ)であると言います。そこでは、CVを使用することはまったくできません。θ


交差検定法で何をしているのかを詳しく説明できますか?を修正してから、トレーニングデータを使用して他のパラメーターを推定してから検証しますか?θ
ニールG

@NeilGは、相互検証セットの対数周辺予測データの尤度の合計を最大化します(kは統合されます)。
-Memming

1
k

2
いい質問ですね。私は自由にマーフィーの教科書の図をあなたの質問に追加して、2つの手順がしばしば比較可能であるという点を説明しました。この追加を気にしないでください。
アメーバは、モニカを復活させる

回答:


15

モデルの仮定が与えられたデータの確率を証拠が教えてくれるので、CVと証拠の最大化は漸近的に等価であると言う理論的なリンクがあるとは思わない。したがって、モデルの指定が間違っていると、証拠が信頼できない可能性があります。一方、交差検証は、モデリングの仮定が正しいかどうかにかかわらず、データの確率の推定値を提供します。これは、より少ないデータを使用してモデリングの仮定が正しい場合、証拠がより良いガイドとなる可能性があることを意味しますが、交差検証はモデルの仕様ミスに対して堅牢です。CVは漸近的に不偏ですが、モデルの仮定が正確に正確でない限り、証拠はそうではないと想定します。

これは本質的に私の直感/経験です。これに関する研究についても興味があります。

多くのモデル(例:リッジ回帰、ガウス過程、カーネルリッジ回帰/ LS-SVMなど)では、証拠の推定と少なくとも同じくらい効率的にleave-one-out交差検証を実行できるため、必ずしも計算は必要ありませんそこに利点があります。

補遺:限界尤度と交差検証のパフォーマンス推定値は両方ともデータの有限サンプルで評価されるため、いずれかの基準を最適化してモデルを調整すると、過剰適合の可能性が常にあります。小さいサンプルの場合、2つの基準の分散の違いにより、どちらが最適かが決まる場合があります。私の論文を見る

Gavin C. Cawley、Nicola LC Talbot、「パフォーマンス評価におけるモデル選択とその後の選択バイアスの過剰適合について」、Journal of Machine Learning Research、11(Jul):2079-2107、2010。(pdf


CVが誤って指定されたモデルに対して堅牢であると言うのはなぜですか?彼の場合、交差検証はEBが尤度を計算しているのと同じ空間を検索しているため、そのような保護はありません。彼のモデリングの仮定が間違っている場合、相互検証は彼を救いません。
ニールG

1
ϕϕθ

psベイジアン正則化によるニューラルネットワークでの過剰適合を回避する分析を実行しており、正則化パラメーターは限界尤度最大化によって調整されています。これが非常にうまく機能しない状況があります(正規化をまったく行わないよりも悪い)。これはモデルの仕様ミスの問題のようです。
ディクラン有袋類

彼は、EBによって返される推定分布(その分布のエントロピーに等しい)を与えられたデータの総対数確率をチェックすることにより、同じ「一般化パフォーマンスの指標」を得ることができます。それはこの問題の分析的解決策であるため、この場合、それを打つ方法はありません。EBの尤度を計算できるのに、交差検証が理にかなっている理由がわかりません。
ニールG

2
@probabilityislogic、私はあなたが何を得ているのかよくわかりません(間違いなく私の終わりに問題!; o)。問題は非常に現実的ですが、実際の経験からお話しできます。私は数年間モデル選択の問題に取り組んできましたが、限界尤度を最大化することが非常に悪い考えである多くの問題に遭遇しました。クロスバリデーションはほとんどのデータセットで同様に機能しますが、パフォーマンスが悪い場合、エビデンスの最大化が時々行うように破滅的に機能することはほとんどありません。
ディクラン有袋類

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.