次のテストデータを作成したロジスティック回帰を行っています(2つの予測子と基準はバイナリ変数です)。
UV1 UV2 AV
1 1 1 1
2 1 1 1
3 1 1 1
4 1 1 1
5 1 1 1
6 1 1 1
7 1 1 1
8 0 0 1
9 0 0 1
10 0 0 1
11 1 1 0
12 1 1 0
13 1 0 0
14 1 0 0
15 1 0 0
16 1 0 0
17 1 0 0
18 0 0 0
19 0 0 0
20 0 0 0
AV =
AVはバイナリ変数であるため、AVに対するUV効果を測定するには、ロジスティック回帰が必要です。したがって、私は次のコードを使用しました
> lrmodel <- glm(AV ~ UV1 + UV2, data = lrdata, family = "binomial")
"family =" binomial ""を含む。これは正しいです?
テストデータに関しては、モデル全体、特に推定量と重要度について疑問に思っていました。
> summary(lrmodel)
Call:
glm(formula = AV ~ UV1 + UV2, family = "binomial", data = lrdata)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.7344 -0.2944 0.3544 0.7090 1.1774
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -4.065e-15 8.165e-01 0.000 1.000
UV1 -1.857e+01 2.917e+03 -0.006 0.995
UV2 1.982e+01 2.917e+03 0.007 0.995
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 27.726 on 19 degrees of freedom
Residual deviance: 17.852 on 17 degrees of freedom
AIC: 23.852
Number of Fisher Scoring iterations: 17
UV2が重要ではないのはなぜですか。したがって、グループAV = 1の場合、UV2 = 1の場合は7ケースあり、グループAV = 0の場合、UV2 = 1の場合は3ケースしかないことを確認してください。
UVの重要性はないものの、推定者は-私の意見では-非常に高い(たとえば、UV2 = 1.982e + 01の場合)。これはどのようにして可能ですか?
切片が0,5ではないのはなぜですか?AV = 1の5ケースとAV = 0の5ケースがあります。
さらに、私は重要ではないと予測した予測子としてUV1を作成しました。グループAV = 1の場合、UV1 = 1の場合は5つのケースがあり、グループAV = 0の場合、UV1 = 1の場合も5つのケースがあります。
私がロジスティクスから得た全体像は私を混乱させています...
何が私をより多く消費していたか: "NOT-logistic"回帰を実行するとき("family =" binomial "を省略することにより)
> lrmodel <- glm(AV ~ UV1 + UV2, data = lrdata,)
期待どおりの結果が得られます
Call:
glm(formula = AV ~ UV1 + UV2, data = lrdata)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.7778 -0.1250 0.1111 0.2222 0.5000
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.5000 0.1731 2.889 0.01020 *
UV1 -0.5000 0.2567 -1.948 0.06816 .
UV2 0.7778 0.2365 3.289 0.00433 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for gaussian family taken to be 0.1797386)
Null deviance: 5.0000 on 19 degrees of freedom
Residual deviance: 3.0556 on 17 degrees of freedom
AIC: 27.182
Number of Fisher Scoring iterations: 2
- UV1は重要ではありません!:-)
- UV2はAV = 1に良い影響を与えます!:-)
- 切片は0.5です。:-)
私の全体的な質問:なぜロジスティック回帰( "family =" binomial "を含む)が期待どおりの結果を生成しないのに、" NOT-logistic "回帰(" family = "binomial"を含まない)がしないのですか?
更新:上記の観測は、UV1とUV 2の相関関係によるものです。Corr= 0.56 UV2のデータを操作した後
AV:1、1、1、1、1、1、1、1、1、0、0、0、0、0、0、0、0、0、0
UV1:1、1、1、1、1、1、0、0、0、1、1、1、1、1、1、1、0、0、0
UV2:0、0、0、 1、1、1、1、1、1、1、1、1、0、0、0、0、0、0、0、0
(UV2の3つの1の位置で3つの0の位置を変更して、UV1とUV2の間の相関<0.1を得ました)。
UV1 UV2 AV
1 1 0 1
2 1 0 1
3 1 0 1
4 1 1 1
5 1 1 1
6 1 1 1
7 1 1 1
8 0 1 1
9 0 1 1
10 0 1 1
11 1 1 0
12 1 1 0
13 1 0 0
14 1 0 0
15 1 0 0
16 1 0 0
17 1 0 0
18 0 0 0
19 0 0 0
20 0 0 0
相関関係を回避するために、私の結果は私の期待に近づきます。
Call:
glm(formula = AV ~ UV1 + UV2, family = "binomial", data = lrdata)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.76465 -0.81583 -0.03095 0.74994 1.58873
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.1248 1.0862 -1.036 0.3004
UV1 0.1955 1.1393 0.172 0.8637
UV2 2.2495 1.0566 2.129 0.0333 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 27.726 on 19 degrees of freedom
Residual deviance: 22.396 on 17 degrees of freedom
AIC: 28.396
Number of Fisher Scoring iterations: 4
しかし、なぜ相関関係は「非ロジスティック」回帰の結果ではなく、ロジスティック回帰の結果に影響を与えるのでしょうか。
t calculating an exact y-value but an value which can be defined as the probability to be part of group AV = 1 (and not part of group AV = 0); and this value isn
0または1であるが0と1の間であり、モデルのしきい値を選択して、ケースをグループAV = 1に割り当てる必要がある場合を考慮しますしきい値を超えています。したがって、ロジスティック回帰にはより「抽象的な」値があり、線形回帰にあるような明確なy値はありません。これをどう扱うか?
R
はstats.stackexchange.com/a/40609/919のソリューションに実用的な例を投稿しました。「シミュレーションの実施」コメントの下のコード行を参照してください。