デシジョンツリーのVCディメンションとは何ですか?


17

2つの次元にk分割された決定木のVC次元とは何ですか?モデルがCARTであり、許可される分割は軸に平行であるとしましょう。

したがって、1回の分割で三角形の3つのポイントを注文し、ポイントのラベル付けで完全な予測を得ることができます(つまり:粉砕ポイント)

しかし、2分割、または一般的なkはどうですか?

回答:


13

これが簡単な答えの質問であるかどうかはわかりませんし、決定木についても質問する必要があるとは思いません。

Aslanらに相談する 、ツリーのVC次元の計算(2009)。彼らはこの問題に対処するために、小さなツリーで徹底的な検索を行い、大規模なツリーでVC次元を推定するための近似的な再帰式を提供します。次に、このアルゴリズムをプルーニングアルゴリズムの一部として使用します。もしあなたの質問にクローズドフォームの回答があったなら、彼らはそれを提供したでしょう。彼らは、かなり小さな木でさえも道を繰り返す必要があると感じました。

私の2セントの価値。意思決定のためのVCの側面について話すことが意味があるかどうかはわかりません。各項目がバイナリの結果である次元の応答を考えます。これは、アスランらが検討した状況です。このサンプル空間には可能な結果と可能な応答パターンがあります。私はとの完全なツリー、ビルドする場合レベルとの葉を、私は、任意のパターン粉々にすることができます2 d 2 d d 2 d 2 dd2d2dd2d2d反応。しかし、誰も完全な木に適合しません。通常、交差検定を使用して過剰適合を行い、その後プルーニングを戻します。最後に取得するのは、小さくてシンプルなツリーですが、仮説セットはまだ大きいです。アスラン等。同型ツリーのファミリーのVC次元を推定してください。各ファミリは、独自のVCディメンションを持つ仮説セットです。

ここに画像の説明を入力してください

前の図は、4つのポイントを粉砕する空間のツリーを示しています:。4番目のエントリは「応答」です。アスラン等。同じ形状のツリーをとを使用して同型で、同じ仮説セットの一部と見なします。したがって、これらのツリーのそれぞれには3つのリーフしかありませんが、このようなツリーのセットは4ポイントを粉砕でき、VCディメンションはこの場合4です。ただし、同じツリーが4つの変数を持つスペースで発生する可能性があります。その場合、VCディメンションは5になります。したがって、複雑です。1 0 0 1 1 1 1 0 0 1 0 1 1 1 0 1 xは1 X 2d=3(1,0,0,1),(1,1,1,0),(0,1,0,1),(1,1,0,1)x1x2

Aslanのブルートフォースソリューションはかなりうまく機能しているように見えますが、それらはプルーニングと相互検証に依存しているため、実際に使用するアルゴリズムのVC次元ではありません。仮説空間が実際に何であるかを言うのは難しいです。なぜなら、原則として、私たちは可能な限り多数の可能な木から始めてから、より合理的なものにプルーンバックするからです。たとえ誰かが2つの層を超えないという先験的な選択で始まったとしても、たとえば、木を剪定する必要があるかもしれません。また、交差検証はサンプルエラーの直後に行われるため、VCディメンションは実際には必要ありません。

Aslanらに公平を期すために、彼らは彼らの仮説空間を特徴付けるためにVC次元を使用しません。彼らは、枝のVC寸法を計算し、その量を使用して枝を切断するかどうかを決定します。各段階で、検討中のブランチの特定の構成のVCディメンションを使用します。彼らは問題全体のVCの側面を見ていません。

変数が連続的で、応答がしきい値に到達することに依存している場合、決定ツリーは基本的にパーセプトロンの束を作成しているため、VC次元はおそらくそれよりも大きくなります(分割を行うにはカットオフポイントを推定する必要があるため) 。応答が連続的な応答に単調に依存する場合、CARTはそれを一連のステップに分割し、回帰モデルを再作成しようとします。その場合、私はツリーを使用しません-おそらくgamまたは回帰。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.