なぜラグ効果を追加すると、ベイジアン階層モデルの平均逸脱が増加するのですか？

背景：現在、さまざまなベイジアン階層モデルを比較する作業を行っています。データは、参加者と時間の幸福度の数値的尺度です。約1000人の参加者と、参加者ごとに5〜10個の観察結果があります。 $y_{ij}$ $i$ $j$

ほとんどの縦断的データセットと同様に、時間的に近い観測値は、離れた観測値よりも大きな相関関係を持つ何らかの自己相関を期待しています。いくつかのことを簡略化すると、基本モデルは次のようになります。

y_{私 j} 〜 N （ μ_{私 j} 、 σ^{2} ）

$y_{ij} \sim N(\mu_{ij}, \sigma^2)$

ここで、遅延のないモデルを比較しています。

μ_{私 j} = β_{0 私}

$\mu_{ij} = \beta_{0i}$

遅延モデルの場合：

μ_{私 j} = β_{0 私} + β_{1} （ y_{私 （ j - 1 ）} - β_{0 私} ）

$\mu_{ij} = \beta_{0i} + \beta_{1} (y_{i(j-1)} - \beta_{0i})$

ここで者レベルの平均値とされているラグパラメータである（すなわち、ラグ効果は、その時点の予測値から前回の時点から観測の偏差の倍数を加算します）。また、（つまり、最初の観測の前の観測）を推定するためにいくつかのことをしなければなりませんでした。 $\beta_{0i}$ $\beta_1$ $y_{i0}$

私が得ている結果は次のことを示しています。

遅延パラメーターは、約.18、95％CI [.14、.21]です。すなわち、それは非ゼロです
モデルに遅延が含まれると、平均偏差とDICは両方とも数百増加します。
事後予測チェックは、遅延効果を含めることにより、モデルがデータの自己相関をより良く回復できることを示しています

したがって、要約すると、ゼロ以外のラグパラメーターと事後予測チェックは、ラグモデルが優れていることを示唆しています。それでも平均逸脱とDICは、遅延のないモデルの方が優れていることを示唆しています。これは私を困惑させます。

私の一般的な経験では、有用なパラメーターを追加する場合、少なくとも平均偏差を減らす必要があります（複雑さのペナルティーの後でもDICは改善されません）。さらに、遅延パラメーターの値をゼロにすると、遅延なしモデルと同じ偏差が得られます。

質問

ラグパラメーターがゼロ以外であり、事後予測チェックが改善される場合でも、なぜラグ効果を追加するとベイジアン階層モデルの平均逸脱が増加するのでしょうか？

最初の考え

私は多くの収束チェックを行いました（たとえば、トレースプロットを見る;チェーンおよびラン全体の逸脱結果の変化を調べる）両方のモデルが後方に収束したようです。
ラグエフェクトを強制的にゼロにするコードチェックを実行しました。これにより、ラグのないモデルの逸脱を回復できました。
また、平均偏差からペナルティーを引いた値を調べました。これにより、期待値で偏差が生じるはずであり、これによりラグモデルが悪化しました。
$\beta_{0i}$
おそらく、最初の観測の前に暗黙の時点をどのように推定したかについて、いくつかの問題があります。
おそらく、このデータのラグ効果は弱いだけです
で最大の信頼度を使用lmeしてモデルを推定してみましたcorrelation=corAR1()。ラグパラメーターの推定値は非常に似ていました。この場合、ラグモデルは、ラグのないものよりも対数尤度が大きく、AICが（約100）小さくなりました（つまり、ラグモデルの方が優れていることが示唆されました）。そのため、これにより、ラグを追加することでベイジアンモデルの逸脱も低くなるという考えが強化されました。
おそらく、ベイジアン残差について何か特別なことがあります。ラグモデルが前の時点で予測されたyと実際のyの差を使用する場合、この量は不確実になります。したがって、遅延効果は、このような残差値の信頼できる間隔で動作します。

— ジェロミー・アングリム
ソース

あなたは、遅れパラメータがおよそ.18であると言います。ラグパラメーターを学習しましたか？はいの場合、前に何を使用しましたか？

— サミット

N (β_{0 i}, σ^{2})

$N(\beta_{0i}, \sigma^2)$

私の考えは次のとおりです。

DIC、BIC、AICの代わりに、余裕がある場合は限界尤度（証拠とも呼ばれます）を直接使用することをお勧めします。証拠が大きければ大きいほど、モデルクラスはより可能性が高くなります。大きな違いはないかもしれませんが、DIC、BIC、AICはあくまでも近似にすぎません。
$0.18$
さらに一歩進んでみましょう：ラグ効果（c）を考慮しないモデルを取り、その限界尤度を計算します。次に、ラグ効果を組み込み、ラグパラメーターに事前分布を持つモデルクラス（d）を取得します。（d）の限界尤度を計算します。（d）の限界尤度が大きいと予想されます。そうしないと、どうなりますか？：

（1）限界尤度は、モデルクラス全体を考慮します。これには、遅延効果、パラメーターの数、尤度、事前確率が含まれます。

（2）追加パラメーターの前にかなりの不確実性がある場合、パラメーターの数が異なるモデルの比較は常に微妙です。

（3）ラグパラメーターの事前の不確実性を不当に大きく指定した場合、モデルクラス全体にペナルティを科します。

（4）負の遅延と正の遅延の平等な確率をサポートする情報は何ですか？負の遅延を観察することはほとんどありえないと考えており、これを前の段階に組み込む必要があります。

（5）ラグパラメータで選択した事前分布は均一です。これは通常、良い選択ではありません。パラメーターが指定された範囲内にあることを本当に確信していますか？境界内の各ラグ値は実際に等しい可能性を持っていますか？私の提案：ベータ分布（ラグが制限されていることが確実な場合;または、ゼロより小さい値を除外できる場合は対数正規分布を使用します。

（6）これは、非有益な事前分布の使用が適切でない特定の例です（限界尤度を見て）：不確実なパラメーターの数が少ないモデルを常に優先します。より多くのパラメータを持つモデルがどれだけ良いか悪いかは関係ありません。

私の考えがあなたにいくつかの新しいアイデア、ヒントを与えることを願っています！

— サミット
ソース

ヒントをありがとう。事をまとめるために、遅れパラメーターの平均値を事後の値（つまり、0.18）に制限しました。遅延なしモデルでは、平均偏差がまだ小さくなっています。

— ジェロミーアングリム