Rによるロジスティック回帰


7

次のテストデータを作成したロジスティック回帰を行っています(2つの予測子と基準はバイナリ変数です)。

   UV1 UV2 AV
1    1   1  1
2    1   1  1
3    1   1  1
4    1   1  1
5    1   1  1
6    1   1  1
7    1   1  1
8    0   0  1
9    0   0  1
10   0   0  1
11   1   1  0
12   1   1  0
13   1   0  0
14   1   0  0
15   1   0  0
16   1   0  0
17   1   0  0
18   0   0  0
19   0   0  0
20   0   0  0

AV = depedetvarablecrtero

UV1UV2=bothdepedatvarablespredctors

AVはバイナリ変数であるため、AVに対するUV効果を測定するには、ロジスティック回帰が必要です。したがって、私は次のコードを使用しました

> lrmodel <- glm(AV ~ UV1 + UV2, data = lrdata, family = "binomial")

"family =" binomial ""を含む。これは正しいです?

テストデータに関しては、モデル全体、特に推定量と重要度について疑問に思っていました。

> summary(lrmodel)


Call:
glm(formula = AV ~ UV1 + UV2, family = "binomial", data = lrdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.7344  -0.2944   0.3544   0.7090   1.1774  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept) -4.065e-15  8.165e-01   0.000    1.000
UV1         -1.857e+01  2.917e+03  -0.006    0.995
UV2          1.982e+01  2.917e+03   0.007    0.995

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 27.726  on 19  degrees of freedom
Residual deviance: 17.852  on 17  degrees of freedom
AIC: 23.852

Number of Fisher Scoring iterations: 17
  1. UV2が重要ではないのはなぜですか。したがって、グループAV = 1の場合、UV2 = 1の場合は7ケースあり、グループAV = 0の場合、UV2 = 1の場合は3ケースしかないことを確認してください。

  2. UVの重要性はないものの、推定者は-私の意見では-非常に高い(たとえば、UV2 = 1.982e + 01の場合)。これはどのようにして可能ですか?

  3. 切片が0,5ではないのはなぜですか?AV = 1の5ケースとAV = 0の5ケースがあります。

さらに、私は重要ではないと予測した予測子としてUV1を作成しました。グループAV = 1の場合、UV1 = 1の場合は5つのケースがあり、グループAV = 0の場合、UV1 = 1の場合も5つのケースがあります。

私がロジスティクスから得た全体像は私を混乱させています...

何が私をより多く消費していたか: "NOT-logistic"回帰を実行するとき("family =" binomial "を省略することにより)

> lrmodel <- glm(AV ~ UV1 + UV2, data = lrdata,)

期待どおりの結果が得られます

Call:
glm(formula = AV ~ UV1 + UV2, data = lrdata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-0.7778  -0.1250   0.1111   0.2222   0.5000  

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)   0.5000     0.1731   2.889  0.01020 * 
UV1          -0.5000     0.2567  -1.948  0.06816 . 
UV2           0.7778     0.2365   3.289  0.00433 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for gaussian family taken to be 0.1797386)

    Null deviance: 5.0000  on 19  degrees of freedom
Residual deviance: 3.0556  on 17  degrees of freedom
AIC: 27.182

Number of Fisher Scoring iterations: 2
  1. UV1は重要ではありません!:-)
  2. UV2はAV = 1に良い影響を与えます!:-)
  3. 切片は0.5です。:-)

私の全体的な質問:なぜロジスティック回帰( "family =" binomial "を含む)が期待どおりの結果を生成しないのに、" NOT-logistic "回帰(" family = "binomial"を含まない)がしないのですか?

更新:上記の観測は、UV1とUV 2の相関関係によるものです。Corr= 0.56 UV2のデータを操作した後

AV:1、1、1、1、1、1、1、1、1、0、0、0、0、0、0、0、0、0、0

UV1:1、1、1、1、1、1、0、0、0、1、1、1、1、1、1、1、0、0、0

UV2:0、0、0、 1、1、1、1、1、1、1、1、1、0、0、0、0、0、0、0、0

(UV2の3つの1の位置で3つの0の位置を変更して、UV1とUV2の間の相関<0.1を得ました)。

UV1 UV2 AV
1    1   0  1
2    1   0  1
3    1   0  1
4    1   1  1
5    1   1  1
6    1   1  1
7    1   1  1
8    0   1  1
9    0   1  1
10   0   1  1
11   1   1  0
12   1   1  0
13   1   0  0
14   1   0  0
15   1   0  0
16   1   0  0
17   1   0  0
18   0   0  0
19   0   0  0
20   0   0  0

相関関係を回避するために、私の結果は私の期待に近づきます。

Call:
glm(formula = AV ~ UV1 + UV2, family = "binomial", data = lrdata)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-1.76465  -0.81583  -0.03095   0.74994   1.58873  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept)  -1.1248     1.0862  -1.036   0.3004  
UV1           0.1955     1.1393   0.172   0.8637  
UV2           2.2495     1.0566   2.129   0.0333 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 27.726  on 19  degrees of freedom
Residual deviance: 22.396  on 17  degrees of freedom
AIC: 28.396

Number of Fisher Scoring iterations: 4

しかし、なぜ相関関係は「非ロジスティック」回帰の結果ではなく、ロジスティック回帰の結果に影響を与えるのでしょうか。


2
リグレッサからどのように応答が生成されたかがわからない場合、データはテストにはほとんど役に立ちません。UV1およびUV2(既知の係数を使用)に基づいて指定されたモデルに従ってAVを生成しないのはなぜですか?そうすれば、調べて学ぶ価値のあるデータが得られます。
whuber

この提案についてはthxですが、線形/重回帰のUV1およびUV2の既知の係数に従ってAVの値を生成する方法を知っています。たとえば、y = 5 + 10 * UV1 + 20 * UV2(線形回帰の方程式の場合y = b0 + b1 * UV1 + b2 * UV2)を定義し、この方程式に基づいて、 XとYのデータセットです。ただし、これはロジスティック回帰に関するすべてです。
flobrr

この手順をロジスティック回帰にどのように適応させることができますか?特にロジスティック回帰がt calculating an exact y-value but an value which can be defined as the probability to be part of group AV = 1 (and not part of group AV = 0); and this value isn0または1であるが0と1の間であり、モデルのしきい値を選択して、ケースをグループAV = 1に割り当てる必要がある場合を考慮しますしきい値を超えています。したがって、ロジスティック回帰にはより「抽象的な」値があり、線形回帰にあるような明確なy値はありません。これをどう扱うか?
flobrr

ロジスティック回帰は、データを生成する方法を正確に記述する特定の数学モデルを使用します。私Rstats.stackexchange.com/a/40609/919のソリューションに実用的な例を投稿しました。「シミュレーションの実施」コメントの下のコード行を参照してください。
whuber

回答:


1

私の全体的な質問:なぜロジスティック回帰( "family =" binomial "を含む)が期待どおりの結果を生成しないのに、" NOT-logistic "回帰(" family = "binomial"を含まない)がしないのですか?

線形モデルが最小化すると、異なる結果が得られます

Σ=1yη2
一方、ロジスティック回帰は以下を最小化します。

Σ=1yログ11+expη+1yログ111+expη
どこ
η=β0+β1UV1+β2UV2

結果が同じになる理由はありません。

しかし、なぜ相関関係は「非ロジスティック」回帰の結果ではなく、ロジスティック回帰の結果に影響を与えるのでしょうか。

両方に影響します。Std. Error線形モデルのs も低いと思います。これは、多重共線性の問題ですが、相関を持つ2つの変数しかない場合、この多重共線性を呼び出せない場合があります。.56

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.