二項回帰のRの出力の解釈


38

私は二項データテストでこれについては非常に新しいですが、1つを行う必要があり、結果をどのように解釈するかがわかりません。応答変数であるy変数は二項であり、説明因子は連続的です。これは、結果を要約するときに得たものです:

glm(formula = leaves.presence ~ Area, family = binomial, data = n)

Deviance Residuals: 
Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 
(Dispersion parameter for binomial family taken to be 1)

Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

ここにはない多くのことがありますが、これは実際に何を言っているのですか:

                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***

また、AICとフィッシャースコアリングの反復回数はどういう意味ですか?

> fit
Call:  glm(formula = Lövförekomst ~ Areal, family = binomial, data = n)

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166  

Degrees of Freedom: 12237 Total (i.e. Null);  12236 Residual
(314 observations deleted due to missingness)
Null Deviance:      16660 
Residual Deviance: 16650        AIC: 16650

そして、これはどういう意味ですか:

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166 

6
あなたの質問は非常に広範であるため、「二項回帰をどのように解釈するのですか?」-私は、このトピックに関する紹介文を取り上げることをお勧めします。Agrestiのカテゴリデータ分析入門は非常に親しみやすいものです。
Sycoraxが復活モニカ言う

2
ここで答えるには広すぎるかもしれません。@ user777が言ったように、良いテキストを調べることは適切かもしれません。Agrestiは良いです、私は同意します。Hosmer&Lemeshowも良いです。簡単で無料のもの(セルフプラグアラート)が必要な場合は、ロジスティック回帰の概要を参照しください。
ピーターフロム-モニカの復職

わかりました、迅速な回答に感謝します、私はAgrestiを試して、それが役立つかどうかを確認します:)
user40116 14

4
この質問が広すぎて答えられないとは思いません。本質的には、一貫してトピックと見なされてきたtranslation-of-rs-lm-outputのロジスティック回帰バージョンであるように思われます。
GUNG -復活モニカ

1
Rが画面に噴出したものを解釈することについての質問なら、私はこれについて@gungと一緒です。あいまいさが存在する場所は、「平均」とはどういう意味ですか?OPが、係数が対数オッズのスケールの値を持つモデルの推定値であると喜んでいる場合、このQは問題ありません。OPがこれに満足せず、データ、モデルなどの観点から意味を説明する必要がある場合、これはいくつかの質問の1つにすぎないので、あまりにも広大な質問になります。
モニカの復職-G.シンプソン14

回答:


74

あなたがしたことはロジスティック回帰です。これは基本的にどの統計ソフトウェアでも行うことができ、出力は似ています(少なくとも内容は異なりますが、プレゼンテーションは異なります)。UCLAの優れた統計ヘルプWebサイトには、Rによるロジスティック回帰のガイドがあります。これに慣れていない場合、ここでの私の答え:ロジットモデルとプロビットモデルの違いは、LRが何であるかを理解するのに役立ちます(ただし、異なるコンテキストで記述されています)。

2つのモデルが表示されているようです。主に一番上のモデルに焦点を当てます。さらに、モデルまたは出力のコピーと貼り付けでエラーが発生したようです。そのため、出力と交換leaves.presenceAreaて、モデルとの一貫性を保ちます。ここに私が言及しているモデルがあります(追加したことに注意してください(link="logit")によって暗示され、family=binomial参照; GLM?家族?):

glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)

この出力を見ていきましょう(の下の2行目で変数の名前を変更したことに注意してくださいCoefficients):

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 
(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

あるように 残差が線形(OLS)回帰分析では、ロジスティック回帰およびその他の一般化線形モデルでの残差があることができます。ただし、応答変数が連続的でない場合は、より複雑になります。GLiMには5種類の残差がありますが、標準として記載されているのは逸脱残差です。(逸脱と逸脱の残差はより高度であるため、ここで簡単に説明します。この議論を理解するのが多少難しい場合は、あまり心配する必要はありません。スキップできます):

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

モデルで使用されるすべてのデータポイントについて、そのポイントに関連付けられた逸脱度が計算されます。各ポイントに対してこれを行うと、そのような残差のセットが得られ、上記の出力は単に分布のノンパラメトリックな説明です。


次に、共変量に関する情報が表示されます。これは、一般的に主に関心があるものです。

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

AreaEstimateleaves.presenceArealeaves.presenceArea0、最初の行のすぐ上です。(対数オッズに十分に慣れていない場合は、ロジスティック回帰におけるオッズ比に対する単純な予測の解釈についての私の答えを読むのに役立つかもしれません、これらの推定に関連されます。つまり、これらは、研究が同じように再実行されたが、新しいデータを何度も繰り返した場合に、これらの推定値が平均してどれだけ跳ね返るかの推定値です。(標準誤差の概念にあまり精通していない場合は、ここでの答えを読むのに役立つかもしれません:線形回帰における係数標準誤差の解釈方法。)推定値を標準誤差で除算する場合、十分に大きいサンプルで正規分布すると仮定される商を取得します。この値はの下にリストされていz valueます。以下Pr(>|z|)に、両側p値を示します。標準正規分布のそれらのz値に対応する。最後に、は、従来の重要な星です(係数表の下のキーに注意してください)。


Dispersion行がGLiMsと、デフォルトで印刷されますが、ここで多くの情報を追加しません(それはカウントモデル、例えばとのより重要です)。これは無視できます。


最後に、モデルとその適合度に関する情報を取得します。

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

missingness多くの場合、行が欠落しています。あなたはどちらかのために314回の観測を持っていたので、それはここに現れleaves.presenceAreaまたは両方が欠落していました。これらの部分的な観測は、モデルのフィッティングには使用されませんでした。

Residual devianceNull devianceEstimateAreaF

AIC、アカウントにデータをフィットするモデルの能力を取る適合度の別の尺度です。これは、2つのモデルを比較する場合に非常に役立ちますが、1つがより適合している可能性がありますが、より柔軟性があり、したがってデータをより適切に適合できるためです。モデルは1つしかないため、これは有益ではありません。

への参照Fisher scoring iterationsは、モデルの推定方法に関係しています。線形モデルは、閉形式の方程式を解くことで近似できます。残念ながら、ロジスティック回帰を含むほとんどのGLiMではこれを実行できません。代わりに、反復アプローチ(デフォルトではニュートンラプソンアルゴリズム)が使用されます。大まかに言って、モデルは推定値が何であるかについての推測に基づいて適合します。その後、アルゴリズムは、異なる推定値を代わりに使用することで適合が改善されるかどうかを確認します。そうである場合、その方向に移動し(たとえば、より高い推定値を使用して)、モデルに再び適合します。アルゴリズムは、再度移動するとさらに改善されると認識しない場合に停止します。この行は、プロセスが停止して結果を出力するまでの反復回数を示します。



リストする2番目のモデルと出力に関して、これは結果を表示するための別の方法です。具体的には、これら

Coefficients:
(Intercept)       Areal  
-0.3877697    0.0008166

上記と同じ種類の推定値です(ただし、異なるモデルからのものであり、補足情報は少ないものです)。


1

呼び出し:これは、関数に対して行った呼び出しです。これは、Rに入力したものとまったく同じコードになります。これは、タイプミスをしたかどうかを確認するのに役立ちます。

(偏差)残差:ロジスティック回帰ではこれらをほとんど無視できます。ポアソン回帰または線形回帰の場合、これらを多かれ少なかれ正規分布にする必要があります(これは、上位2つの診断プロットがチェックしているものと同じです)。これを確認するには、1Qと3Qの絶対値が互いに近い(ish)かどうか、および中央値が0に近いかどうかを確認します。平均値は常に0であるため表示されません。おそらくデータに奇妙なゆがみがあります。(これは診断プロットにも表示されます!)

係数:これは出力の要です。

  • 傍受:ポアソンおよび線形回帰の場合、これはすべての入力が0の場合の予測出力です。ロジスティック回帰の場合、この値は各クラスの観測数の差が大きいほど0から遠くなります。標準誤差は私たちがこれについてどれほど不確実であるか(低いほど良い)。この場合、インターセプトは0から遠く、標準エラーはインターセプトよりもはるかに小さいため、クラスの1つ(失敗または失敗しなかった)に多くの観測が含まれていることを確信できます。(この場合、ありがたいことに「失敗しませんでした」!)

  • さまざまな入力(各入力は異なる行にあります):この推定値は、この入力を1増やすたびに出力がどの程度変化すると思うかを表します。推定値が大きいほど、この入力変数の出力への影響が大きくなります。標準エラーは、私たちがどれほど確実であるかです。通常、標準誤差は推定値の1/10であるため、入力は有益であると確信できます。したがって、この場合、インターセプトが重要であると確信しています。

  • シグニフ。コード:これは、各:inputおよびインターセプトの重要性の鍵です。これらは、1つのモデルのみをデータに適合させる場合にのみ正しいです。(つまり、最初からデータ分析や変数選択の情報としてではなく、どの変数に関心があるのか​​を実験データに使用するのに最適です。)

    待って、なぜ統計的有意性を使用できないのですか?できますが、一般的にはお勧めしません。データサイエンスでは、多くの場合、同じデータセットを使用して複数のモデルを近似し、最適なモデルを選択しようとします。同じデータセットで統計的有意性のテストを複数実行した場合、それを補うためにp値を調整する必要があります。このように考えることができます。p= 0.05未満の結果を受け入れると判断した場合、基本的に20回に1回間違っていても大丈夫だと言っていることになります。ただし、その後5つのテストを実行し、各テストで1/20の確率で間違っている場合、これらのテストの少なくとも1つで1/4の確率で失敗することになります...どれか分からない。あなたはそれを修正することができます(有意であると認めるp値に、実行するテストの数を掛けることで)が、実際には、p値を完全に使用することを避ける方が一般に簡単であることがわかります。

(2項族の分散パラメーターは1とみなされます):これは、ポアソン回帰と2項(ロジスティック)回帰についてのみ表示されます。モデルに合うように追加のスケーリングパラメーターが追加されたことを通知するだけです。無視しても構いません。

ヌル偏差:ヌル偏差は、切片のみを使用して出力をどれだけうまく予測できるかを示しています。小さいほど良い。

残留偏差:残留偏差は、切片と入力を使用して出力をどれだけうまく予測できるかを示しています。小さいほど良い。ヌル偏差と残差偏差の差が大きいほど、入力変数が出力変数の予測に役立ちました。

AIC: AICは「赤池情報の基準」であり、モデルがデータのパターンをどの程度正確に記述しているかの推定値です。主に、同じデータセットでトレーニングされたモデルを比較するために使用されます。モデルを選択する必要がある場合は、AICの低いモデルがデータの分散を記述するより良い仕事をしています。

フィッシャースコアリングの反復回数:これは、モデルに適合するのにかかった時間の単なる尺度です。安全に無視できます。

詳細については、このtoturialをお勧めします。 https://www.kaggle.com/rtatman/regression-challenge-day-5

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.