条件付き推論ツリーと従来の決定ツリー


97

誰でも、従来の決定木アルゴリズム(R など)と比較した条件付き推論木(Rのパッケージctreeからparty)の主な違いを説明できますrpartか?

  1. CIツリーの違いは何ですか?
  2. 強みと弱み?

更新:私はホーソーンらによるコメントでチーが言及している論文を見てきました。私はそれを完全に追うことができませんでした-順列を使用して変数が選択される方法を説明できますか(例:影響関数とは)?

ありがとう!


1
Hothornの論文に記載されているものを超えた説明ですか?IMPS2009カンファレンスで、Carolin Stroblの素敵なイラストをいくつか覚えています。彼女のウェブサイトにはいくつかの配布資料があると思います。
chl

このリンクは、決定木パッケージの様々な形の間で比較ですが示しr-bloggers.com/a-brief-tour-of-the-trees-and-forests
Archpaul

回答:


93

価値があるもの:

両方rpartctree再帰的に実行変量分割共変量のセットに値に基づいて、従属変数のを。rpartまた、関連するアルゴリズムは通常、現在の共変量を選択するために情報尺度(Gini係数など)を使用します。

ctree、その著者によると(chlのコメントを参照)、次の変数選択バイアスrpart(および関連するメソッド)を回避します。他とは異なり、ctree情報測定値を最大化する変数(Gini係数など)を選択する代わりに、有意性テスト手順を使用して変数を選択します。

有意性検定、またはそれ以上:アルゴリズムの各開始時に計算される多重有意性検定(共変量の選択-分割の選択-再帰)は置換検定です。つまり、「帰無仮説の下での検定統計量の分布は、観測されたデータポイントのラベルの再配置の下で、テスト統計のすべての可能な値。」(ウィキペディアの記事から)。

ここで検定統計量については、従属変数と共変量の変換(恒等式、つまり変換なしを含む)から計算されます。両方の変数に対して多数の変換のいずれかを選択できます。DV(従属変数)の場合、変換は、求めていた影響関数と呼ばれます。

例(論文から引用):

  • DVと共変量の両方が数値の場合、恒等変換を選択し、共変量とDVの値のすべての可能な順列との相関を計算できます。次に、この順列検定からp値を計算し、他の共変量のp値と比較します。
  • DVと共変量の両方がノミナル(順不同のカテゴリ)である場合、検定統計量は分割表から計算されます。
  • この一般的なスキームのあらゆる種類の変換(恒等変換を含む)から、他の種類のテスト統計を簡単に作成できます。

の置換テストの小さな例R

require(gtools)
dv <- c(1,3,4,5,5); covariate <- c(2,2,5,4,5)
# all possible permutations of dv, length(120):
perms <- permutations(5,5,dv,set=FALSE) 
# now calculate correlations for all perms with covariate:
cors <- apply(perms, 1, function(perms_row) cor(perms_row,covariate)) 
cors <- cors[order(cors)]
# now p-value: compare cor(dv,covariate) with the 
# sorted vector of all permutation correlations
length(cors[cors>=cor(dv,covariate)])/length(cors)
# result: [1] 0.1, i.e. a p-value of .1
# note that this is a one-sided test

ここで、上記の1つだけでなく、一連の共変量があるとします。次に、上記のスキームのように各共変量のp値を計算し、最小のp値を持つものを選択します。さまざまな種類の共変量(数値やカテゴリなど)を持つ可能性があるため、相関の代わりにp値を直接計算する必要があります。

共変量を選択したら、可能性のあるすべての分割(または、分割前にDVの最小数の要素を要求するなど、多くの場合制限される数のすべての分割)を調べて、順列ベースのテストを再度評価します。

ctreeDVと共変量の両方のための可能な変換の数が付属しています(のヘルプを参照Transformationspartyパッケージを)。

したがって、一般的に主な違いctreeは、統計理論に基づく共変量選択スキームを使用する(つまり、順列ベースの有意性検定による選択)ため、の潜在的なバイアスを回避するrpartことです。たとえば、条件付き推論ツリーは、ランダムフォレストのベース学習器として使用できます。

これは私が得ることができる限りです。詳細については、論文を読む必要があります。あらゆる種類の統計分析を適用したいときは、自分が何をしているかを本当に知っていることを強くお勧めします。


1.原則として、Giniの有意性検定が利用可能で計算が容易な場合、現在の意思決定ツリービルダーをこれらで拡張できます。2.しかし、実際にはそれらはほとんどの場合利用できません(つまり、計算が非常に困難/非効率的です)。3. CIツリーの作成者は、分割基準のファミリーを1つ選択しました。これは必ずしも分類の正確性にとって最良のファミリーではありませんが、少なくとも重要性を計算するのは簡単です。4.したがって、CIツリーの弱点は、この特定の基準を使用する必要があることです。
シェルドンクーパー

1
@SheldonCooper:1.と2.は少し頭上にあるかもしれません。3と4については正しいと思います。
wolf.rauch11年

1
(...)およびDVの値のすべての可能な順列DVの値のすべての可能な順列?10個の要素のすべての可能な順列を見つけるには130秒以上かかります。これにより、 20回の観測-モデレーターによって追加
14

1
申し訳ありませんが、DVは何の略ですか?
mythicalprogrammer

1
@mythicalprogrammer従属変数、私は思う
Frikster
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.