逸脱とは何ですか?(特にCART / rpartで)


45

「逸脱」とは何ですか、どのように計算され、統計のさまざまな分野でどのように使用されますか?

特に、CARTでの使用(およびRのrpartでの実装)に個人的に興味があります。

wikiの記事にはやや欠けているようで、あなたの洞察が最も歓迎されるので、私はこれを求めています

回答:


48

逸脱とGLM

正式には、逸脱は2つの確率モデル間の一種の距離と見なすことができます。GLMコンテキストでは、2つの入れ子モデル間の尤度の対数比の2倍になります。ここで、は「より小さい」モデルです。つまり、@ suncoolsuが言ったように、モデルパラメーターの線形制限です(ネイマンピアソンの補題を参照)。そのため、モデル比較の実行に使用できます。また、ヌルモデル(切片のみ)と比較した場合に評価されるモデルの適合度の尺度を提供するため、OLS推定(ANOVA、回帰)で使用されるRSSの一般化として見ることもできます。LMでも動作します:1/00

> x <- rnorm(100)
> y <- 0.8*x+rnorm(100)
> lm.res <- lm(y ~ x)

残差SS(RSS)はとして計算され、次のように簡単に取得できます。ε^tε^

> t(residuals(lm.res))%*%residuals(lm.res)
         [,1]
[1,] 98.66754

または(未調整)R2

> summary(lm.res)

Call:
lm(formula = y ~ x)

(...)

Residual standard error: 1.003 on 98 degrees of freedom
Multiple R-squared: 0.4234, Adjusted R-squared: 0.4175 
F-statistic: 71.97 on 1 and 98 DF,  p-value: 2.334e-13 

以来、全分散です。以下のように、ANOVAテーブルで直接利用できることに注意してください。R2=1RSS/TSSTSS

> summary.aov(lm.res)
            Df Sum Sq Mean Sq F value    Pr(>F)    
x            1 72.459  72.459  71.969 2.334e-13 ***
Residuals   98 98.668   1.007                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

さて、逸脱を見てください:

> deviance(lm.res)
[1] 98.66754

実際、線形モデルの場合、偏差はRSSに等しくなります(そのような場合、OLSとMLの推定値が一致することを思い出してください)。

逸脱とカート

CARTは、すでにラベルが付けられた個人を(分類コンテキストで)任意のクラスに割り当てる方法として見ることができます。ツリーは、個人のクラスメンバーシップの確率モデルを提供するものと見なすことができます。したがって、各ノードで、クラス確率分布があります。ここで重要なのは、ツリーの葉が指定された多項分布からランダムサンプルを提供することです。したがって、ツリー逸脱を、すべての葉の合計として定義できます。nipiknikpikD

Di=2kniklog(pik),

VenablesとRipleyの表記法に従ってください(MASS、Springer 2002、第4版)。Rユーザー向けのこの重要なリファレンス(IMHO)にアクセスできる場合、ノードを分割し、観測データにツリーをフィッティングするためにそのようなアプローチがどのように使用されるかを自分で確認できます(p。255 ff。)。基本的には、ツリーを枝刈りすることにより、を最小化するという考え方です。ここではツリーノード数です。ここで、コストと複雑さのトレードオフを認識ます。ここで、は、エントロピーまたは情報ゲインの尺度、またはとして定義される既知のGiniインデックスに基づくノード不純物(つまり、特定のノードでの分布の不均一性)の概念と同等D+α#(T)#(T)TD1kpik2 (未知の割合は、ノードの割合から推定されます)。

回帰木では、アイデアは非常に似ている、と私たちは個人のために定義された二乗和との乖離度を概念化することができますでj

Di=j(yjμi)2,

すべての葉を合計しました。ここで、各リーフ内で考慮される確率モデルは、ガウスです。Venots and Ripley(p。256)を引用して、「はガウスGLMの通常のスケーリングされた逸脱です。ただし、ツリーの内部ノードでの分布は正規分布の混合であるため、は葉でのみ適切です。ツリー構築プロセスは、回帰におけるフォワード変数選択に非常によく似た、確率モデルの階層的な改良と見なされる必要があります。セクション9.2には、実装に関する詳細な情報が記載されていますが、次の関数を既に確認できます。N(μi,σ2)DDirpartresiduals()rpart ここで、「偏差残差」は、適合モデルの対数のマイナス2倍の平方根として計算されます。

AtkinsonとTherneauによるrpartルーチンを使用した再帰的パーティション分割の概要も良い出発点です。より一般的なレビュー(袋詰めを含む)については、以下をお勧めします


1
あなたが言うように、それはそこに問題がないので、私の素敵な答えchlを+1します。とてもうまく入れました。
モニカの復活-G.シンプソン

ちょっとしたこと-おそらくlm.fitあなたの例では使用するのが最善ではありませんlm
モニカの復職-G.シンプソン

@ギャビンああ、はい、そうです。私によくこの間違いを犯すことを思い出させてくれて
ありがとう...-chl

3
ひとつ発言:誤差の正規性の仮定は、RSSは、正常に分布しているさらなる逸脱を意味LR検定統計量と同じであるので、意味線形回帰ずれについては、RSSに等しいかかわらず漸近します。これは、chlの簡潔なコメントの単なる拡張です。
suncoolsu

@suncoolsu MLおよびOLSの推定値に関する私のコメントについての場合、はい、(つまり線形モデル)の「ガウス分布を仮定する」ことを意味しました。あなたのコメントは大歓迎です。εi
chl

25

応答のすべての分散を説明するような、観測と同じ数のパラメーターを持つ完全なモデルを考えると、少し明確になるかもしれません。これは飽和モデルです。逸脱は、候補モデルと飽和モデルの「適合」の差を単純に測定します。

回帰ツリーでは、飽和モデルは、観測と同数の末端ノード(葉)を持つモデルであるため、応答に完全に適合します。より単純なモデルの逸脱は、ノードの残差平方和として計算され、すべてのノードで合計されます。つまり、予測値と観測値の差の二乗の合計。これは、最小二乗回帰で使用されるのと同じ種類のエラー(または逸脱)です。

分類ツリーの場合、残差平方和は不適合の最も適切な尺度ではありません。代わりに、偏差の代替測定値があり、さらにエントロピー測定値またはGiniインデックスを最小化するツリーを構築できます。後者はのデフォルトですrpart。Giniインデックスは次のように計算されます:

Di=1k=1Kpik2

ここで、は、ノードで観測されたクラス割合です。この測度は、ツリー内のすべての端末ノードで合計され、適合ツリーモデルの偏差に到達します。pikkii


(+1)申し訳ありませんが、私の投稿は後で届きましたが、あなたの投稿に気付きませんでした。私はそれらがあまりにも重ならないと思うので、気にしないなら私は私のものを残します。
-chl

それで、逸脱は適合度の尺度ですよね?私の知る限り、回帰では、適合度を測定するための統計(RSS、)があります。分類では、誤分類率を使用できます。私は正しいですか?R2
アボカド14年

11

逸脱は、モデルが一般的な代替(つまり飽和モデル)を保持するという帰無仮説をテストするための尤度比統計です。一部のポアソンGLMおよび二項GLMでは、個々のカウントのサイズが増加しても、観測数は固定されたままです。その場合、逸脱度はカイ2乗漸近ヌル分布になります。自由度= N-p。ここで、pはモデルパラメーターの数です。つまり、飽和モデルと不飽和モデルの自由パラメーターの数に等しくなります。逸脱は、モデルの適合のテストを提供します。N

Deviance=2[L(μ^|y)L(y|y)]

ただし、ほとんどの場合、いくつかの変数を削除する必要があるかどうかをテストする必要があります。それぞれパラメーターとパラメーターを持つ2つのモデルとがあり、これら2 つのモデルのどちらが優れているかをテストする必要があるとします。は特殊なケース、つまりネストされたモデルである と仮定します。 M1M2p1p2M1M2

その場合、逸脱の差が取られます:

ΔDeviance=2[L(μ1^|y)L(μ2^|y)]

飽和モデルの対数尤度がキャンセルされ、自由度が変化することに注意してください。これは、いくつかのパラメーターが0であるかどうかをテストする必要があるときに最もよく使用します。あなたが合うときしかし、中に逸脱出力電流のモデル対飽和モデルのためです。P 2 - P 1ΔDeviancep2p1glmR

詳細を読みたい場合:cf:Alan Agrestiによるカテゴリーデータ分析、118ページ。


@Tal、私は使用せずrpart、このフォーラムの経験豊富なメンバーに答えを残します。
-suncoolsu

私はアイデアを持っていると思います...しかし、rpartは回帰木でも逸脱を出力しますOo
deps_stats

@deps_statsは、ツリーの末端ノードで合計されたノード残差平方和です。
モニカの復職-G.シンプソン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.