分類および回帰木の背後にある数学


13

誰でもCARTの分類の背後にある数学のいくつかを説明できますか?2つの主要な段階がどのように発生するかを理解したいと思っています。たとえば、データセットでCART分類器をトレーニングし、テストデータセットを使用してその予測パフォーマンスをマークしましたが、

  1. ツリーの初期ルートはどのように選択されますか?

  2. 各ブランチはなぜ、どのように形成されますか?

15列23クラスの40万件のレコードであるデータセットは、混同マトリックスから100%の精度を達成します。データセットで10倍の交差検証を使用します。誰かがCART分類の段階を説明するのを手伝ってもらえたら本当にうれしいです。

回答:


23

CARTおよびアルゴリズムのような決定木は、特定のターゲットクラスに対して可能な限り純粋なサブセットを取得するために、トレーニングセットの再帰的なパーティション分割を通じて機能します。ツリーの各ノードは、特定のテストセットによって分割された特定のレコードセット関連付けられています。例えば、連続的な属性で分割Aを試験することによって誘導することができるA X。レコードTのセットは、ツリーの左ブランチと右ブランチにつながる2つのサブセットに分割されます。TAAxT

Tl={tT:t(A)x}

そして

Tr={tT:t(A)>x}

同様に、カテゴリフィーチャを使用して、その値に応じて分割を誘導できます。たとえば、B = { b 1b k }の場合、各ブランチiはテストB = b iによって誘導されます。BB={b1,,bk}iB=bi

決定木を誘導する再帰アルゴリズムの除算ステップでは、各機能のすべての可能な分割を考慮し、選択した品質尺度(分割基準)に従って最適な分割を見つけようとします。データセットが次のスキームで誘導される場合

A1,,Am,C

ここで、は属性で、Cはターゲットクラスです。すべての候補の分割が生成され、分割基準によって評価されます。上記のように、連続属性とカテゴリ属性の分割が生成されます。最適なスプリットの選択は、通常、不純物測定によって実行されます。親ノードの不純物は、分割によって減少する必要があります。してみましょうE 1E 2... EのKレコードのセットに誘導し、分割することE不純物対策の使用になり分割基準、私はです。AjC(E1,E2,,Ek)EI()

=E=1k|E||E|E

標準的な不純物の尺度は、シャノンエントロピーまたはジニ指数です。より具体的には、CARTは次のようにセットに対して定義されているGiniインデックスを使用します。みましょうのp jはレコードの割合もEクラスのCのj個のp J = | { T E T [ C ] = CのJ } |EpjEcj 次いで、 G、IN、IE=1- Q Σ jは=1、P 2 、J Q

pj=|{tEt[C]=cj}||E|
GnE=1j=1Qpj2
Qクラスの数です。

すべてのレコードが同じクラスに属している場合、不純物が0になります。

例として、我々は記録のバイナリクラス設定されていることを言わせてクラス分布がどこにあるか1 / 2は1 / 2 -以下は、のために良い分割であるTT1/21/2T

良い分割

Tl10Tr01TlTr|Tl|/|T|=|Tr|/|T|=1/2

=11/221/2200=1/2

悪い分割

=11/221/221/213/421/421/211/423/42=1/21/23/81/23/8=1/8

最初の分割が最適な分割として選択され、アルゴリズムが再帰的に進行します。

決定木を使用して新しいインスタンスを分類するのは簡単です。実際、ルートノードからリーフへのパスをたどれば十分です。レコードは、到達する葉の過半数クラスで分類されます。

この図の正方形を分類したいとします

2つのフィーチャデータセット

ABCCAB

誘導された決定木としては、次のものが考えられます。 ここに画像の説明を入力してください

レコードが円でラベル付けされた葉の上にある場合、レコードの正方形は決定ツリーによって円として分類されることは明らかです。

このおもちゃの例では、レコードがツリーによって誤分類されないため、トレーニングセットの精度は100%です。上記のトレーニングセットのグラフィック表示では、ツリーが新しいインスタンスを分類するために使用する境界(灰色の破線)を確認できます。

決定木に関する多くの文献がありますが、大ざっぱな紹介文を書き留めたかっただけです。もう1つの有名な実装はC4.5です。


1
素晴らしい図!
Cam.Davidson.Pilon

ありがとう、残念ながら、エディターはPDF形式でのアップロードをサポートしていないようです。それらはベクトルでした。
シモーネ

2

私はCARTの専門家ではありませんが、オンラインで無料で入手できる「統計学習の要素」という本を試すことができます(CARTについては第9章を参照)。この本は、CARTアルゴリズムの作成者の1人(Friedman)によって書かれたと思います。


それはたくさん助けました!+1ブリリアントファインド!
G Gr

@GarrithGraham問題ありません、この無料の本は「よく知られた秘密」だと思いました。
ビット単位
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.