あなたがしたことはロジスティック回帰です。これは基本的にどの統計ソフトウェアでも行うことができ、出力は似ています(少なくとも内容は異なりますが、プレゼンテーションは異なります)。UCLAの優れた統計ヘルプWebサイトには、Rによるロジスティック回帰のガイドがあります。これに慣れていない場合、ここでの私の答え:ロジットモデルとプロビットモデルの違いは、LRが何であるかを理解するのに役立ちます(ただし、異なるコンテキストで記述されています)。
2つのモデルが表示されているようです。主に一番上のモデルに焦点を当てます。さらに、モデルまたは出力のコピーと貼り付けでエラーが発生したようです。そのため、出力と交換leaves.presence
しArea
て、モデルとの一貫性を保ちます。ここに私が言及しているモデルがあります(追加したことに注意してください(link="logit")
によって暗示され、family=binomial
参照; GLM?と家族?):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
この出力を見ていきましょう(の下の2行目で変数の名前を変更したことに注意してくださいCoefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
あるように 残差が線形(OLS)回帰分析では、ロジスティック回帰およびその他の一般化線形モデルでの残差があることができます。ただし、応答変数が連続的でない場合は、より複雑になります。GLiMには5種類の残差がありますが、標準として記載されているのは逸脱残差です。(逸脱と逸脱の残差はより高度であるため、ここで簡単に説明します。この議論を理解するのが多少難しい場合は、あまり心配する必要はありません。スキップできます):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
モデルで使用されるすべてのデータポイントについて、そのポイントに関連付けられた逸脱度が計算されます。各ポイントに対してこれを行うと、そのような残差のセットが得られ、上記の出力は単に分布のノンパラメトリックな説明です。
次に、共変量に関する情報が表示されます。これは、一般的に主に関心があるものです。
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Area
Estimate
leaves.presence
Area
leaves.presence
Area
0、最初の行のすぐ上です。(対数オッズに十分に慣れていない場合は、ロジスティック回帰におけるオッズ比に対する単純な予測の解釈についての私の答えを読むのに役立つかもしれません、これらの推定に関連されます。つまり、これらは、研究が同じように再実行されたが、新しいデータを何度も繰り返した場合に、これらの推定値が平均してどれだけ跳ね返るかの推定値です。(標準誤差の概念にあまり精通していない場合は、ここでの答えを読むのに役立つかもしれません:線形回帰における係数標準誤差の解釈方法。)推定値を標準誤差で除算する場合、十分に大きいサンプルで正規分布すると仮定される商を取得します。この値はの下にリストされていz value
ます。以下Pr(>|z|)
に、両側p値を示します。標準正規分布のそれらのz値に対応する。最後に、は、従来の重要な星です(係数表の下のキーに注意してください)。
Dispersion
行がGLiMsと、デフォルトで印刷されますが、ここで多くの情報を追加しません(それはカウントモデル、例えばとのより重要です)。これは無視できます。
最後に、モデルとその適合度に関する情報を取得します。
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
missingness
多くの場合、行が欠落しています。あなたはどちらかのために314回の観測を持っていたので、それはここに現れleaves.presence
、Area
または両方が欠落していました。これらの部分的な観測は、モデルのフィッティングには使用されませんでした。
Residual deviance
Null deviance
Estimate
Area
F
AIC、アカウントにデータをフィットするモデルの能力を取る適合度の別の尺度です。これは、2つのモデルを比較する場合に非常に役立ちますが、1つがより適合している可能性がありますが、より柔軟性があり、したがってデータをより適切に適合できるためです。モデルは1つしかないため、これは有益ではありません。
への参照Fisher scoring iterations
は、モデルの推定方法に関係しています。線形モデルは、閉形式の方程式を解くことで近似できます。残念ながら、ロジスティック回帰を含むほとんどのGLiMではこれを実行できません。代わりに、反復アプローチ(デフォルトではニュートンラプソンアルゴリズム)が使用されます。大まかに言って、モデルは推定値が何であるかについての推測に基づいて適合します。その後、アルゴリズムは、異なる推定値を代わりに使用することで適合が改善されるかどうかを確認します。そうである場合、その方向に移動し(たとえば、より高い推定値を使用して)、モデルに再び適合します。アルゴリズムは、再度移動するとさらに改善されると認識しない場合に停止します。この行は、プロセスが停止して結果を出力するまでの反復回数を示します。
リストする2番目のモデルと出力に関して、これは結果を表示するための別の方法です。具体的には、これら
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
上記と同じ種類の推定値です(ただし、異なるモデルからのものであり、補足情報は少ないものです)。