私は最近、以下の論文で説明されているパレート平滑化重要度サンプリングのリーブワンアウト相互検証(PSIS-LOO)の使用を開始しました。
- Vehtari、A.および&Gelman、A.(2015)。パレート平滑化重要度サンプリング。arXivプレプリント(リンク)。
- Vehtari、A.、Gelman、A.、およびGabry、J.(2016)。Leave-one-out交差検証とWAICを使用した実用的なベイズモデル評価。arXivプレプリント(リンク)
これは、MCMCを1回実行するだけでLOO-CVを実行できるため、サンプル外のモデル評価に対する非常に魅力的なアプローチを表しており、WAICなどの既存の情報基準よりも優れているとされています。
PSIS-LOOには、近似が信頼できるかどうか、つまり、重要度の経験的分布の裾にフィットするパレート分布の推定指数(データポイントごとに1つの重み)によって与えられるかどうかを診断する機能があります。つまり、推定重量場合、悪いことが発生する可能性があります。
悲しいことに、この方法を私の問題に適用したところ、関心のあるモデルの大部分で、\ hat {k} _i \ gg 0.7の大部分が見つかりました。当然のことながら、報告されたLOOの対数尤度の一部は、明らかに他のデータセットと比較して無意味でした。ダブルチェックとして、私は従来の(そして時間のかかる)10分割交差検証を実行しましたが、実際に上記のケースでは、PSIS-LOOがひどく間違った結果を与えていたことがわかりました(良い面では、結果は10と非常によく一致しました)すべての)のモデルのCVを折りたたみます。参考までに、Aki VehtariによるPSIS-LOOのMATLAB実装を使用しています。
多分私は、この方法を適用する私の現在の最初の問題がPSIS-LOOにとって「困難」であるという点で非常に不運なだけかもしれませんが、このケースは比較的一般的かもしれないと思います。私のような場合、Vehtary、Gelman&Gabryの論文は単に次のように述べています:
PSIS推定値に有限の分散がある場合でも、場合、ユーザーは問題のあるについてから直接サンプリングすることを検討する必要があります倍交差を使用します検証、またはより堅牢なモデルを使用します。
これらは明白ですが、時間がかかるか、追加の操作が必要であるため、実際には理想的なソリューションではありません(MCMC とモデルの評価はすべて操作に関するものですが、少ないほど優れています)。
PSIS-LOOの失敗を防ぐために事前に適用できる一般的な方法はありますか?暫定的なアイデアはいくつかありますが、人々が採用している実証的な解決策はすでにあるのでしょうか。