予測するためにデータを保持しようとはしていませんが、私の直感では、モデルで共分散をゼロに固定することは、一連の個別の単一IV線形回帰方程式を組み合わせてDVを予測することに似ています。このアプローチとは異なり、多重回帰は、DVを予測する方程式のモデルを作成するときにIVの共分散を考慮します。これにより、含まれているIVのセット内で完全に発生する間接効果から直接効果を分離することにより、確実に解釈可能性が向上します。正直なところ、これがDVの予測を必ずしも改善するかどうかはわかりません。統計学者ではなく統計学のユーザーである私は、次のシミュレーションテスト関数をまとめて不完全な答えを出しました(明らかに、「はい、モデルにIV共分散を組み込むと予測精度が向上します」)。
simtestit=function(Sample.Size=100,Iterations=1000,IV.r=.3,DV.x.r=.4,DV.z.r=.4) {
require(psych); output=matrix(NA,nrow=Iterations,ncol=6); for(i in 1:Iterations) {
x=rnorm(Sample.Size); z=rnorm(Sample.Size)+x*IV.r
y=rnorm(Sample.Size)+x*DV.x.r+z*DV.z.r
y.predicted=x*lm(y~x+z)$coefficients[2]+z*lm(y~x+z)$coefficients[3]
bizarro.y.predicted=x*lm(y~x)$coefficients[2]+z*lm(y~z)$coefficients[2]
output[i,]=c(cor(y.predicted,y)^2,cor(bizarro.y.predicted,y)^2,
cor(y.predicted,y)^2>cor(bizarro.y.predicted,y)^2,cor(x,z),cor(x,y),cor(y,z))}
list(output=output,percent.of.predictions.improved=100*sum(output[,3])/Iterations,
mean.improvement=fisherz2r(mean(fisherz(output[,1])-fisherz(output[,2]))))}
# Wrapping the function in str( ) gives you the gist without filling your whole screen
str(simtestit())
この関数は、ランダムなサンプル(N= Iterations
、 n= Sample.Size
)3つの正規分布変数から:z
= x
+ ランダムノイズ y
= x
+ z
+ランダムノイズ。ユーザーは最後の3つの引数のデフォルトをオーバーライドすることで相関にある程度影響を与えることができますが、ランダムノイズはサンプルの相関にも影響を与えるため、サンプリングエラーが真の相関パラメーターの推定に影響する方法をシミュレートします。関数は、の予測計算y
のための回帰係数に基づくx
とz
に由来します。
(1)重回帰(y.predicted
)、および...
(2)2つの独立した2変量線形回帰(bizarro.y.predicted
)。
output
行列が含まれているIterations
行6列を:R2の 1 そして 2、かどうかの真偽テスト 1 > 2、および二変量 r3つのユニークな組み合わせのためだx
、y
と、z
。この関数は3要素のリストを作成しoutput
ます。最初のリストは行列です。私はラッピングをお勧めしますので、デフォルトでは、これは、1,000行の長さであるsimtestit()
にstr( )
あなたが何らかの理由で個々のサンプルの統計情報に興味がない限り、関数または関数自体のリストからこの要素を削除します。反復の割合R2 (1)IVの共分散を説明するための重回帰、および反復にわたるこれらの改善の平均(のスケールで) r、psych
パッケージ経由のフィッシャー変換を使用して)。
この関数はデフォルトで、最大限基本的な重回帰のかなり典型的な状況の短いsimテストになります。これにより、ユーザーは個々のサンプルサイズと変数の相関関係を変更して、研究や関係の強さに関する以前の理論に適合させることができます。すべての可能な設定をテストしたわけではありませんが、関数を実行するたびに、100%の反復でより高い値が生成されますR2重回帰あり。の平均改善R2 IVの共分散(次の引数を入力することで不完全に操作できる場合) IV.r
)は大きいです。あなたはおそらく私よりもGLM関数に精通しているので(まったくそうではありません)、おそらくこの関数を変更するか、基本的な考え方を使用して、多くのIVでGLM予測を比較することができます。それが同じ方法であると仮定すると(またはそうだと仮定すると)、2番目の質問に対する基本的な答えはおそらく「はい」であるように見えますが、その程度はIVがどれだけ強く交感するかに依存します。ホールドアウトされたデータとモデルの適合に使用されるデータのサンプリング誤差の違いは、後者のデータセット内の予測精度の改善を圧倒する可能性があります。 IVが2つしかない最大限に基本的なケース)。