回答:
逸脱とGLM
正式には、逸脱は2つの確率モデル間の一種の距離と見なすことができます。GLMコンテキストでは、2つの入れ子モデル間の尤度の対数比の2倍になります。ここで、は「より小さい」モデルです。つまり、@ suncoolsuが言ったように、モデルパラメーターの線形制限です(ネイマンピアソンの補題を参照)。そのため、モデル比較の実行に使用できます。また、ヌルモデル(切片のみ)と比較した場合に評価されるモデルの適合度の尺度を提供するため、OLS推定(ANOVA、回帰)で使用されるRSSの一般化として見ることもできます。LMでも動作します:
> x <- rnorm(100)
> y <- 0.8*x+rnorm(100)
> lm.res <- lm(y ~ x)
残差SS(RSS)はとして計算され、次のように簡単に取得できます。
> t(residuals(lm.res))%*%residuals(lm.res)
[,1]
[1,] 98.66754
または(未調整)
> summary(lm.res)
Call:
lm(formula = y ~ x)
(...)
Residual standard error: 1.003 on 98 degrees of freedom
Multiple R-squared: 0.4234, Adjusted R-squared: 0.4175
F-statistic: 71.97 on 1 and 98 DF, p-value: 2.334e-13
以来、全分散です。以下のように、ANOVAテーブルで直接利用できることに注意してください。
> summary.aov(lm.res)
Df Sum Sq Mean Sq F value Pr(>F)
x 1 72.459 72.459 71.969 2.334e-13 ***
Residuals 98 98.668 1.007
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
さて、逸脱を見てください:
> deviance(lm.res)
[1] 98.66754
実際、線形モデルの場合、偏差はRSSに等しくなります(そのような場合、OLSとMLの推定値が一致することを思い出してください)。
逸脱とカート
CARTは、すでにラベルが付けられた個人を(分類コンテキストで)任意のクラスに割り当てる方法として見ることができます。ツリーは、個人のクラスメンバーシップの確率モデルを提供するものと見なすことができます。したがって、各ノードで、クラス確率分布があります。ここで重要なのは、ツリーの葉が指定された多項分布からランダムサンプルを提供することです。したがって、ツリー逸脱を、すべての葉の合計として定義できます。
VenablesとRipleyの表記法に従ってください(MASS、Springer 2002、第4版)。Rユーザー向けのこの重要なリファレンス(IMHO)にアクセスできる場合、ノードを分割し、観測データにツリーをフィッティングするためにそのようなアプローチがどのように使用されるかを自分で確認できます(p。255 ff。)。基本的には、ツリーを枝刈りすることにより、を最小化するという考え方です。ここではツリーノード数です。ここで、コストと複雑さのトレードオフを認識します。ここで、は、エントロピーまたは情報ゲインの尺度、またはとして定義される既知のGiniインデックスに基づくノード不純物(つまり、特定のノードでの分布の不均一性)の概念と同等 (未知の割合は、ノードの割合から推定されます)。
回帰木では、アイデアは非常に似ている、と私たちは個人のために定義された二乗和との乖離度を概念化することができますで
すべての葉を合計しました。ここで、各リーフ内で考慮される確率モデルは、ガウスです。Venots and Ripley(p。256)を引用して、「はガウスGLMの通常のスケーリングされた逸脱です。ただし、ツリーの内部ノードでの分布は正規分布の混合であるため、は葉でのみ適切です。ツリー構築プロセスは、回帰におけるフォワード変数選択に非常によく似た、確率モデルの階層的な改良と見なされる必要があります。セクション9.2には、実装に関する詳細な情報が記載されていますが、次の関数を既に確認できます。rpart
residuals()
rpart
ここで、「偏差残差」は、適合モデルの対数のマイナス2倍の平方根として計算されます。
AtkinsonとTherneauによるrpartルーチンを使用した再帰的パーティション分割の概要も良い出発点です。より一般的なレビュー(袋詰めを含む)については、以下をお勧めします
lm.fit
あなたの例では使用するのが最善ではありませんlm
。
応答のすべての分散を説明するような、観測と同じ数のパラメーターを持つ完全なモデルを考えると、少し明確になるかもしれません。これは飽和モデルです。逸脱は、候補モデルと飽和モデルの「適合」の差を単純に測定します。
回帰ツリーでは、飽和モデルは、観測と同数の末端ノード(葉)を持つモデルであるため、応答に完全に適合します。より単純なモデルの逸脱は、ノードの残差平方和として計算され、すべてのノードで合計されます。つまり、予測値と観測値の差の二乗の合計。これは、最小二乗回帰で使用されるのと同じ種類のエラー(または逸脱)です。
分類ツリーの場合、残差平方和は不適合の最も適切な尺度ではありません。代わりに、偏差の代替測定値があり、さらにエントロピー測定値またはGiniインデックスを最小化するツリーを構築できます。後者はのデフォルトですrpart
。Giniインデックスは次のように計算されます:
ここで、は、ノードで観測されたクラス割合です。この測度は、ツリー内のすべての端末ノードで合計され、適合ツリーモデルの偏差に到達します。
逸脱は、モデルが一般的な代替(つまり飽和モデル)を保持するという帰無仮説をテストするための尤度比統計です。一部のポアソンGLMおよび二項GLMでは、個々のカウントのサイズが増加しても、観測数は固定されたままです。その場合、逸脱度はカイ2乗漸近ヌル分布になります。自由度= N-p。ここで、pはモデルパラメーターの数です。つまり、飽和モデルと不飽和モデルの自由パラメーターの数に等しくなります。逸脱は、モデルの適合のテストを提供します。
ただし、ほとんどの場合、いくつかの変数を削除する必要があるかどうかをテストする必要があります。それぞれパラメーターとパラメーターを持つ2つのモデルとがあり、これら2 つのモデルのどちらが優れているかをテストする必要があるとします。は特殊なケース、つまりネストされたモデルである と仮定します。
その場合、逸脱の差が取られます:
飽和モデルの対数尤度がキャンセルされ、自由度が変化することに注意してください。これは、いくつかのパラメーターが0であるかどうかをテストする必要があるときに最もよく使用します。あなたが合うときしかし、中に逸脱出力電流のモデル対飽和モデルのためです。P 2 - P 1glm
R
詳細を読みたい場合:cf:Alan Agrestiによるカテゴリーデータ分析、118ページ。
rpart
、このフォーラムの経験豊富なメンバーに答えを残します。