決定木またはロジスティック回帰?


14

私は分類の問題に取り組んでいます。同じ数のカテゴリ変数と連続変数を含むデータセットがあります。使用するテクニックを知るにはどうすればよいですか?決定木とロジスティック回帰の間で

ロジスティック回帰が連続変数により適し、決定木が連続+カテゴリー変数により適していると仮定するのは正しいでしょうか?


行数、列数(カテゴリ/連続数)などの詳細を追加できますか?
ニテシュ

こんにちは@ Nitesh、32個の入力変数と1個のターゲット変数があります。記録は、トレーニングデータについては2.5ラークに近く、約1ラークのテストデータを記録しています。テストデータは時間外のデータです。
アルン

回答:


22

長い話を短く、言っ@untitledprogrammer何ものを選ぶ助けにモデルやクロス検証の両方を試してみてください。

決定木(実装に依存します(C4.5など))とロジスティック回帰の両方が、連続データとカテゴリデータを適切に処理できる必要があります。ロジスティック回帰では、カテゴリ変数ダミーコード化する必要があります

@untitledprogrammerが言及したように、継続的またはその他の方法で、あなたが持っている機能のタイプに基づいて、どのテクニックがより良いかを先験的に知ることは困難です。それは本当にあなたの特定の問題とあなたが持っているデータに依存します。(無料昼食定理を参照)

ただし、ロジスティック回帰モデルは特徴空間で単一の線形決定境界を検索しますが、決定木は基本的に、軸に沿った線形決定境界を使用して特徴空間を半空間に分割します。最終的な効果は、1つ以上の非線形の決定境界があることです。

これは、データポイントが単一の超平面で簡単に分離されない場合に便利ですが、決定ツリーは柔軟性が高いため、過剰適合しやすい傾向があります。これに対処するには、プルーニングを試してください。ロジスティック回帰は、過剰適合の影響を受けにくい傾向があります(免疫はありません!)。

バツyバツy

だから、あなたは自問する必要があります:

  • あなたの特定の問題でどのような決定境界がより理にかなっていますか?
  • バイアスと分散をどのようにバランスさせたいですか?
  • 機能間に相互作用はありますか?

もちろん、両方のモデルを試し、相互検証を行うことは常に良い考えです。これにより、一般化エラーの可能性が高いものを見つけることができます。


まさに@Victor。
無題

@Victor非常に詳細な説明をありがとう。
アルン

6

回帰ツリーと決定ツリーの両方を使用してみてください。10倍のクロス検証を使用して、各手法の効率を比較します。より効率の高いものに固執します。データセットが連続的またはカテゴリー的であることを知るだけでは、どの方法がより適しているかを判断することは困難です。


1

それは、データの基礎となる分布の構造に本当に依存します。データがベルヌーイ分布に近似していると信じる強い理由がある場合、多項ロジスティック回帰はうまく機能し、解釈可能な結果が得られます。ただし、基礎となる分布に非線形構造が存在する場合は、ノンパラメトリック法を真剣に検討する必要があります。

ノンパラメトリック手法として決定木を使用することもできますが、ランダムフォレストの生成を検討することも考えられます。これは、データのサブセットから多数の個別決定木を本質的に生成し、最終分類はすべてのツリーの集合投票です。ランダムフォレストは、各予測変数が応答に寄与するシェアを把握するのに役立ちます。

留意すべきもう1つの要素は、解釈可能性です。データを分類しようとしているだけであれば、おそらく説明変数と応答変数の間の基本的な関係を気にかけないでしょう。ただし、解釈可能性にまったく興味がある場合、多項ロジスティック回帰は解釈がはるかに簡単です。一般的なパラメトリック手法は、基礎となる分布についての仮定を行うため、より直感的に解釈可能な関係を伝えます。


0

デシジョンツリーを使用するには、連続変数をカテゴリカルに変換する必要があります。

もう1つ、ロジスティック回帰は通常、確率に従って結果を予測するために使用されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.