ベイジアンモデルでの交差検証の安定性


19

JAGSでベイズHLMをk-fold cross-validation(k = 5)を使用してフィッティングしています。パラメーター推定値がすべてのフォールドにわたって安定しているかどうかを知りたいです。これを行う最良の方法は何ですか?β

1つのアイデアは、の事後の差を見つけて、その差の95%CIに0があるかどうかを確認することです。つまり、の95%間隔で0になります(その後、すべてのフォールドペアについて繰り返します)。ββk=1βk=2

別のアイデアは、各フォールドの事後要素を異なるMCMCチェーンとして扱い、これらの擬似チェーン全体でGelmanの(Potential Scale Reduction Factor)を計算することです。R^

これらのいずれかが望ましいですか、代替手段はありますか?


1
フォールド間に何らかの違いがあると確信しているので、信頼できる違いにゼロが含まれているかどうかを確認するのは奇妙に感じます。1つの提案は、各フォールドのポイント推定値を計算し、これらの広がりを調べることです。β
ラスマスバース14

3
交差検証とベイジアンに関する一般的なコメント:WAICを計算するだけではどうですか?LOOCVと漸近的に同等であり、すべてのデータを引き続き使用できます。
乱暴な均衡

1
事後シミュレーションをどのように生成しますか?βk=1βk=2
ステファンローラン14

私の以前の工場で行ったテストでは、0%の歩留まり損失が95%CIであることを証明する必要がありました。適切で独立したサンプルの質問、および二項検定の性質が支配的でした。サンプルのサイズを教えてください。
EngrStudent-モニカの復元15年

回答:


2

これがコメントまたは回答として適格であるかどうかはわかりません。答えのように感じるので、ここに入れています。

k分割交差検証では、データをk個のグループに分割します。「基本」までカバーしている場合は、k個のビンごとにメンバーを一様にランダムに選択しています。

データについて話すとき、各行をサンプル、各列をディメンションと考えます。私はさまざまな方法を使用して、変数の重要度、列の重要度を判断することに慣れています。

思考演習として、「教科書」の一様なランダムから出発し、どの行が重要であるかを判断した場合はどうなりますか?一度に1つの変数を通知する場合もありますが、詳細を通知する場合もあります。他の行ほど重要ではない行がありますか?ポイントの多くは有益なものかもしれませんが、おそらくいくつかは有益です。

変数の重要性を知っていれば、おそらく重要度によってそれらをビンに入れることができます。おそらく、最も重要なサンプルを含む単一のビンを作成できます。これにより、「k」のサイズを定義できます。このようにして、「最も情報量の多い」k番目のバケットを決定し、他のバケットと情報量の少ないバケットと比較します。

これにより、モデルパラメーターの最大変動を把握できます。これは1つの形式にすぎません。

k番目のバケットを分割する2番目の方法は、影響の大きさと方向です。そのため、1つまたは複数のパラメーターを1つの方向に揺らすサンプルを1つのバケットに入れ、同じパラメーターを1つまたは複数の反対方向に揺れるサンプルを別のバケットに入れることができます。

この形式のパラメーターの変動は、情報密度ではなく情報の種類に基づいて、変数をより広範囲にスイープする可能性があります。

幸運を祈ります。


0

完全な答えではないかもしれませんが、いくつかの違いについて95のCIに0が含まれていない場合、0.05レベルで同一ではないと言うのは非常に安全です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.