ツリー推定量は常に偏っていますか?


9

私はディシジョンツリーで宿題をしているのですが、私が答えなければならない質問の1つは、「ツリーから構築された推定量が偏っているのはなぜですか。

現在、過剰適合モデルはすべてのデータポイントに適合しようとするため、バイアスが非常に低くなる傾向があることを知っています。そして、Pythonのスクリプトを使用して、ツリーをいくつかのデータセットに適合させました(単一の機能を備えています。これは正弦波で、いくつかのオフポイントがありました。下の画像)。それで、私は「まあ、データをひどくオーバーフィットした場合、バイアスをゼロにできますか?」と思いました。そして、10000の深さでも、曲線が通過しないいくつかの点がまだあることがわかりました。

ここに画像の説明を入力してください

なぜか探してみましたが、説明があまりわかりませんでした。私はすべてのポイントを完全に通過するいくつかのツリーがあるかもしれないと私は推測しています、そして私が得たものは単に「不運」でした。または、おそらく別のデータセットで公平な結果が得られた可能性があります(おそらく完全な正弦波ですか?)。あるいはそれでも、最初に行われたカットにより、以降のカットですべてのポイントを完全に分離することが不可能になったのかもしれません。

したがって、このデータセットを考慮すると(他の人とは異なる可能性があるため)、私の質問は、バイアスがゼロになるポイントにツリーをオーバーフィットすることは可能ですか、それとも本当に小さい?そして、常に少なくともある程度のバイアスがある場合、なぜそれが起こるのですか?

PS関連があるかどうかはわかりませんが、モデルをデータに合わせるためにDecisionTreeRegressorfrom を使用しましたsklearn


3
当サイトへようこそ!質問に「事前に感謝」を追加する必要はありません。いくつかの回答が得られるまで待って、最も役に立った方を(緑色のチェックマーク)受け入れることをお勧めします。まだ行っていない場合は、このサイトがどのように機能するかを確認するためにツアーをご覧ください。
Silverfish 2016

3
関数y = 0を考えて、y = f(x)を近似しようとしています。ここで、xはランダムな値を取ります。この明らかにコーナーケースでは、決定木推定量が偏っていますか?
jbowman 2016

回答:


10

決定木モデルは、他のどの学習モデルよりも常にバイアスがあるわけではありません。

説明のために、2つの例を見てみましょう。ましょ上の一様乱数の変数である。可能な統計プロセスは次のとおりですX[0,1]

真実1: が与えられたは、Xとノイズのインジケーター関数です:YX

YXI<.5(X)+N(0,1)

真実2: が与えられたは線形関数にノイズを加えたものです:YXX

YXX+N(0,1)

両方の状況で決定木を当てはめる場合、モデルは最初の状況でバイアスかかりません、2番目の状況でバイアスかかります。これは、1つの分割バイナリツリー最初の状況で真の基礎となるデータモデルを回復できるためです。2番目の方法では、ツリーが実行できる最善の方法は、より細かい間隔でステッピングを行うことによって線形関数を近似することです。

両方の状況で線形回帰を当てはめる場合、モデル最初の状況ではバイアスされますが、2番目の状況でバイアスされません。

したがって、モデルが偏っているかどうかを知るには、真の基礎となるデータメカニズムが何かを知る必要があります。現実の状況では、これを知らないだけなので、現実のモデルが偏っているのかどうかを実際に言うことはできません。時々、私たちは長い間完全に正しいと思いますが、その後、より深い理解でバイアスが現れます(ニュートンの重力からアインシュタインの重力は、少なくとも外見上の例です)。

ある意味で、私たちはほとんどの現実世界のプロセス(一部の例外を除く)が非常に知られていないことを期待しているため、真実の妥当な十分な近似は、すべてのモデルが偏っているということです。質問が、複雑な統計プロセスをモデル化することの本質的な無益性についての深い哲学的な議論を求めていることに疑いを抱く人もいますが、考えるのは楽しいです。


0

データの一部のポイントがまだ予測されていないという事実は、既約エラーと呼ばれるものが原因である可能性があります。理論は、機械学習では、削減可能なエラーと削減不可能なエラーが存在するというものです。既約エラーの考え方は、モデルがどれほど優れていても、完全ではないということです。これにはいくつかの理由があります。1つは、トレーニング機能の堅牢性に関係なく、トレーニングデータに含まれていない出力に影響を与える非表示の機能が常に存在することです。もう1つの理由は、ほとんどすべてのデータで、いくつかの外れ値が存在することになっていることです。モデルは常に外れ値に対してできるだけロバストにするように試みることができますが、どんなに頑張っても、外れ値は常に存在します。(これは、モデルを作成するときに外れ値について考えるべきではないという意味ではありません)。そして最後の詳細は、あなたがしないことです

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.