Rでのツリーの分割:パーティとrpart


15

木を分割するのを見てからしばらく経ちました。前回このようなことをしたとき、R(Hothornが作成)のパーティーが好きです。サンプリングによる条件付き推論のアイデアは私にとって理にかなっています。しかし、rpartにも魅力がありました。

現在のアプリケーションでは(詳細は説明できませんが、逮捕者の大規模なサンプルの中で誰が刑務所に入るかを決定することを伴います)ランダムフォレスト、バギング、ブースティングなどの高度な方法は使用できません-簡単に説明できるものが必要ですルール。

また、Zhang&Singer(2010)Recursive Partitioning and Applicationsで推奨されているように、どのノードを分割するかを手動で制御したいと思います。その本に付属しているフリーウェアはこれを可能にしますが、それ以外の点ではユーザー入力がかなり原始的です。

推奨事項や提案はありますか?

回答:


8

@Iteratorには、rpartの方が簡単に方法論を説明できることに同意します。ただし、簡単に説明できるルールを探している場合、パーティー(バギングされたツリーのない)は予測の説明に関して何も失われません-あなたはまだ単一のツリーを持っています。結果変数のドライバー(純粋な予測力だけでなく)を調べることに興味がある場合でも、パーティが進むべき道だと思います。変数は重要であり、どのように分割を作成するかです。パーティは置換テストを使用して、どの変数が最も重要であり、どのように分割されるかを統計的に決定します。したがって、たとえばrpartのような多くのレベルのカテゴリ変数に偏って偏るのではなく、パーティは統計的テストを使用して最適な構造を見つけます。


1
いい答え。あなたはパーティーが上級聴衆にとってより良い理由、そして聴衆がパーティーの使用を受け入れるのを助けるために聴衆を教育するのが良い考えである非常に良い理由を見つけたと思います。
イテレーター

4

[注:以下の更新1を参照してください。]の方法論rpartはの説明よりもはるかに簡単ですparty。ただし、後者ははるかに洗練されており、より良いモデルを提供する可能性があります。私が時々説明する方法partyは、ローカル線形(またはGLM)モデルを作成するための基礎としてそれを話すことです。rpartリーフノードに分類されるすべての要素(つまり、分割で囲まれたボックス/領域)の結果が一定であることを指摘して、これを構築します。ローカルモデルによる改善があったとしても、一定の予測しか得られません。

対照的にparty、分割を開発して、潜在的に地域のモデルを最適化します。実際にはモデルの最適性とは異なる基準を使用していますが、違いを説明するための独自の能力を測定して、それをうまく説明できるかどうかを判断する必要があります。それのための論文は、研究者のためにかなりアクセス可能ですが、非常に昇圧、ランダム森のような単純な方法を検討することを望んでいない誰かのためなど数学的に挑戦することができる、私はそれが思うpartyより洗練され...それでも、CARTモデルがしやすくなります方法論と結果の両方の面で説明し、これらはより洗練されたツリーベースのモデルを導入するためのまともな足がかりを提供します。

要するに、rpart明確にするためにあなたがしなければならないと言います、そして、あなたはparty正確さ/性能のために使うことができます、しかし、私は導入partyせずに紹介しませんrpart


更新1. 1 party年または2年前の私の理解に基づいて答えを決めました。かなり成長しrpartましたが、クライアント/コラボレーターにとって「空想ではない」が重要な基準であるならば、その簡潔さとレガシーをお勧めしますと答えを修正します。しかし、にparty誰かを紹介した後、からより多くの機能を使用するように移行しようとしrpartます。はるかに複雑な概念を含むパッケージと方法論を導入する前に、単純なコンテキストで、損失関数、分割基準などを使用して小規模に開始することをお勧めします。


2
partyパッケージが何ができるかについて少し混乱していると思います。純party関数はrpart、葉に多数決があるような単一の単純なツリーを作成します。のmob機能partyは、より複雑なモデルを葉に持つツリーを構築する(およびパラメーターの不安定性に基づいて分割を選択する)
Shea Parkes

1
@SheaParkesそうですね。しばらく経ちましたが、使用しただけなのmobか、パッケージの残りの部分がかなり大きくなったのかはわかりません。たとえば、以前にランダムなフォレストを見たことはありません。答えを修正します
...-イテレーター

2
実際、私も少し忘れていました。それはだctree、単一のツリーを作るためにcforestランダムフォレストを作成すると、mobモデルベースの葉を作ります。fyi、cforestは楽しいですが、恐ろしく予測が遅いです。
シアパークス

暴徒を調べます。前回パーティーを使用した時に存在したとは思いません。今回は、フォレストアプリケーションは私には向いていません。
ピーターフロム-モニカの復職

@PeterFlom私はmob、最初からそこにいたかもしれない、または少なくとも後ctreeに来たと思う、と思う。それは2009年またはそれ以前からあります。とにかく、SEで新しいことをすべて学べることを示すだけです。:)
イテレーター
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.