私は分類の問題に取り組んでいます。同じ数のカテゴリ変数と連続変数を含むデータセットがあります。使用するテクニックを知るにはどうすればよいですか?決定木とロジスティック回帰の間で
ロジスティック回帰が連続変数により適し、決定木が連続+カテゴリー変数により適していると仮定するのは正しいでしょうか?
私は分類の問題に取り組んでいます。同じ数のカテゴリ変数と連続変数を含むデータセットがあります。使用するテクニックを知るにはどうすればよいですか?決定木とロジスティック回帰の間で
ロジスティック回帰が連続変数により適し、決定木が連続+カテゴリー変数により適していると仮定するのは正しいでしょうか?
回答:
長い話を短く:、言っ@untitledprogrammer何ものを選ぶ助けにモデルやクロス検証の両方を試してみてください。
決定木(実装に依存します(C4.5など))とロジスティック回帰の両方が、連続データとカテゴリデータを適切に処理できる必要があります。ロジスティック回帰では、カテゴリ変数をダミーコード化する必要があります。
@untitledprogrammerが言及したように、継続的またはその他の方法で、あなたが持っている機能のタイプに基づいて、どのテクニックがより良いかを先験的に知ることは困難です。それは本当にあなたの特定の問題とあなたが持っているデータに依存します。(無料昼食定理を参照)
ただし、ロジスティック回帰モデルは特徴空間で単一の線形決定境界を検索しますが、決定木は基本的に、軸に沿った線形決定境界を使用して特徴空間を半空間に分割します。最終的な効果は、1つ以上の非線形の決定境界があることです。
これは、データポイントが単一の超平面で簡単に分離されない場合に便利ですが、決定ツリーは柔軟性が高いため、過剰適合しやすい傾向があります。これに対処するには、プルーニングを試してください。ロジスティック回帰は、過剰適合の影響を受けにくい傾向があります(免疫はありません!)。
だから、あなたは自問する必要があります:
もちろん、両方のモデルを試し、相互検証を行うことは常に良い考えです。これにより、一般化エラーの可能性が高いものを見つけることができます。
それは、データの基礎となる分布の構造に本当に依存します。データがベルヌーイ分布に近似していると信じる強い理由がある場合、多項ロジスティック回帰はうまく機能し、解釈可能な結果が得られます。ただし、基礎となる分布に非線形構造が存在する場合は、ノンパラメトリック法を真剣に検討する必要があります。
ノンパラメトリック手法として決定木を使用することもできますが、ランダムフォレストの生成を検討することも考えられます。これは、データのサブセットから多数の個別決定木を本質的に生成し、最終分類はすべてのツリーの集合投票です。ランダムフォレストは、各予測変数が応答に寄与するシェアを把握するのに役立ちます。
留意すべきもう1つの要素は、解釈可能性です。データを分類しようとしているだけであれば、おそらく説明変数と応答変数の間の基本的な関係を気にかけないでしょう。ただし、解釈可能性にまったく興味がある場合、多項ロジスティック回帰は解釈がはるかに簡単です。一般的なパラメトリック手法は、基礎となる分布についての仮定を行うため、より直感的に解釈可能な関係を伝えます。