多くのユーザーにとって非常に基本的なことだと思います。
線形回帰モデルを使用して、(i)いくつかの説明変数と私の応答変数の関係を調査し、(ii)説明変数を使用して私の応答変数を予測します。
特定の説明変数Xが、私の応答変数に大きな影響を与えているようです。私の応答変数のサンプル外予測の目的でこの説明変数Xの追加値をテストするために、2つのモデルを使用しました:すべての説明変数を使用するモデル(a)とすべての変数を使用するモデル(b)変数Xを除きます。両方のモデルで、サンプル外のパフォーマンスのみを報告します。どちらのモデルもほぼ同じように良好に機能するようです。つまり、説明変数Xを追加しても、サンプル外の予測は改善されません。モデル(a)、つまりすべての説明変数を持つモデルも使用して、説明変数Xが応答変数に大きな影響を与えることを確認しました。
私の質問は今です:この発見をどう解釈するか?直接的な結論は、変数Xは推論モデルを使用して私の応答変数に大きな影響を与えるように見えても、サンプル外の予測を改善しないということです。しかし、私はこの発見をさらに説明するのに苦労しています。これはどのようにして可能であり、この発見の説明は何ですか?
前もって感謝します!
追加情報:「有意に影響する」とは、パラメーター推定の最高95%事後密度間隔に0が含まれないことを意味します(ベイズアプローチを使用したIM)。頻度論的には、これはおおよそ0.05未満のp値を持つことに相当します。私はすべてのモデルパラメーターに拡散(情報のない)事前分布のみを使用しています。私のデータは縦方向の構造を持ち、合計で約7000の観測が含まれています。サンプル外予測では、90%のデータを使用してモデルを適合させ、10%のデータを使用して複数の複製を使用するモデルを評価しました。つまり、トレーニングテストの分割を複数回実行し、最終的に平均パフォーマンスメトリックを報告しました。