決定木を正しく解釈する方法は?


7

オンラインで見つけた意思決定ツリーを正しく解釈しているかどうかを調べています。

  • このディシジョンツリーの従属変数は、BradまたはGoodの2つのクラスを持つ信用格付けです。このツリーのルートには、このデータセット内のすべての2464の観測が含まれています。

  • 良いまたは悪い信用格付けを分類する方法を決定する最も影響力のある属性は、収入レベル属性です。

  • 私たちのサンプルでは、​​収入が低かった人々の大半(553人中454人)の信用格付けも悪かった。プレミアムクレジットカードを無制限にローンチする場合、これらの人々は無視する必要があります。

  • この決定木を予測に使用して新しい観測値を分類する場合、葉のクラスの最大数が予測として使用されますか?たとえば、観察xは中程度の収入、7枚のクレジットカード、34歳です。信用格付けの予測分類=「良い」

  • 別の新しい観察結果は、観察Yである可能性があります。これは低収入に満たないため、信用度は「悪い」です。

これは決定木を解釈する正しい方法ですか、それとも完全に間違っていますか?

ここに画像の説明を入力してください


1
サイトへようこそ。それはとてもいい質問です(+1):)
Dawny33

1
@Data_Dディシジョンツリーのグラフィカル表現をどのように作成したかを教えてください。

回答:


4

より明確になるように、各観察を1つずつ評価してみましょう。

このディシジョンツリーの従属変数は、BradまたはGoodの2つのクラスを持つ信用格付けです。このツリーのルートには、このデータセット内のすべての2464の観測が含まれています。

もしGood, Badあなたが信用格付けによって何を意味するのなら、はい。そして、あなたは2464の観測すべてが木の根に含まれているという結論で正しいです。

良いまたは悪い信用格付けを分類する方法を決定する最も影響力のある属性は、収入レベル属性です。

議論の余地ある何かが影響力を持つと考える方法に依存します。カードの数が最も影響力があると主張する人もいれば、あなたの意見に同意する人もいます。だから、あなたはここで正しいと間違っています。

私たちのサンプルでは、​​収入が低かった人々の大半(553人中454人)の信用格付けも悪かった。プレミアムクレジットカードを無制限にローンチする場合、これらの人々は無視する必要があります。

はい、しかし、これらの人々から悪い信用を得る可能性を考慮した方が良いでしょう。しかし、それでもこのクラスではNOであることが判明し、観察が再び正しくなります。

この決定木を予測に使用して新しい観測値を分類する場合、葉のクラスの最大数が予測として使用されますか?たとえば、観察xは中程度の収入、7枚のクレジットカード、34歳です。信用格付けの予測分類=「良い」

確率に依存します。だから、葉から確率計算し、それに応じて決定を下します。もっと簡単に言えば、Sklearnの決定木分類器のようなライブラリを使用してください。

別の新しい観察結果は、観察Yである可能性があります。これは低収入に満たないため、信用度は「悪い」です。

ここでも、上記の説明と同じです。

これは決定木を解釈する正しい方法ですか、それとも完全に間違っていますか?

はい、これは決定木を解釈する正しい方法です。影響力のある変数の選択に関しては、動揺したくなるかもしれませんが、それは、問題ステートメント、ツリーの構造、アナリストの判断など、多くの要因に依存しています。


1
与えられたリンクにある式を使用して、観測XおよびYの信用格付けの確率を計算するには、次のようにします。#(NodeCondition&Attr = Value)/#(NodeCondition) Observation X P(Good)= 272/483 = 0.56 P(Bad) = 211/483 = 0.44 観測Y P(良好)= 99/553 = 0.18 P(不良)= 454/553 = 0.82これを正しく行ったか?
DataD、2016

申し訳ありませんが、改行は使用できないようです:(
DataD

@DataNewbええ、あなたは正しい方向に進んでいます:)
Dawny33

2

はい、あなたの解釈は正しいです。ツリーの各レベルは、変数の1つに関連付けられています(これは、デシジョンツリーの場合に常に当てはまるわけではなく、より一般的であると想像できます)。

  • Xの収入は中程度なので、ノード2に移動し、7枚以上のカードからノード5に移動します。これで、リーフノードに到達しました。データセットでは、Xのような54人が悪い評価を持っていることがわかります(おそらく人間が他の要因に基づいてこの評価を行ったと思われます。また、Xのような良い評価を持った336人がいました。したがって、この情報だけで、Xはおそらく良い評価を持っていると言えます。したがって、決定木によって、おおよその回答が迅速に得られます。

    • 補足:ここでの54対336は、信頼度の指標になります。たとえば、それを確率のように扱うことができます。あなたは言えたPGood=336/54+3360.86、また、さまざまな方法で信頼区間を計算します。
  • Yの収入は低いので、すぐにツリーを見てノード1に移動し、おそらく彼の評価が悪いと言うことができます。 PBad=454/454+990.82

「最も影響力のある」属性に関するコメントに関しては、これは実際にはツリーの構築方法と、使用する「影響力のある」の定義に依存します。したがって、ツリーを作成した人/ソフトウェア/アルゴリズムを尋ねる必要があります。テーブル自体からわかるように、これは確かに重要な属性です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.