判別分析でカテゴリー独立変数を使用できますか？

15

判別分析では、従属変数はカテゴリー変数ですが、線形判別分析で独立変数として他のいくつかの連続変数と共にカテゴリー変数（たとえば、住宅地：農村、都市）を使用できますか？

— クウォリ
ソース

同様の質問

— ttnphns

14

判別分析は多変量正規分布を前提としています。これは、通常予測子と見なされるものは実際には多変量従属変数であり、グループ化変数は予測子と見なされるためです。つまり、希望する意味で予測子として扱われるカテゴリ変数は適切に処理されません。これは、私を含む多くの人が、判別分析がロジスティック回帰によって時代遅れになったと考えている理由の1つです。ロジスティック回帰は、モデルの左側または右側のいずれにおいても、いかなる分布の仮定も行いません。ロジスティック回帰は直接確率モデルであり、判別分析のようにベイズのルールを使用して結果を確率に変換する必要はありません。

— フランク・ハレル
ソース

フランク・ハレル様、ご回答ありがとうございます。実際、同じ変数セットを使用して、判別分析とロジスティック回帰（ロジットモデル）の結果を比較したいと思います。したがって、その目的のために、判別分析でカテゴリ変数を独立変数として使用する必要がある場合、方法はありますか？

— kuwoli

6

簡単な答えは「はい」ではなく「いいえ」です。

一つの予備的な注意。それ自体で判別関数を生成する変数を「独立」または「依存」と呼ぶべきかどうかを言うのは困難です。LDAは基本的に正準相関分析の特定のケースであるため、両方向性です。これは、MANOVA（独立変数としてクラス変数を使用）として、またはクラスが二分する場合、従属変数としてのクラスの線形回帰として表示できます。したがって、ロジスティック回帰などの一方向の回帰で常にLDAに反対することは完全に合法ではありません。

LDAは、変数（「独立」と呼ばれるもの）が多変量正規分布に由来することを前提としているため、すべて連続です。この仮定は、（1）LDAの分類段階および（2）抽出段階で生成された判別式の有意性のテストにとって重要です。判別式の抽出自体は、仮定を必要としません。

ただし、LDAは、バイナリデータに対してそれを行う保証と見なされることがある仮定の違反に対して非常に堅牢です。実際、一部の人々はそれをしています。正準相関（LDAは特定のケースです）は、両方のセットがバイナリまたはダミーのバイナリ変数で構成される場合に実行できます。ここでも、潜在関数の抽出に問題はありません。このようなアプリケーションの問題は、p値または分類オブジェクトが呼び出されたときに発生する可能性があります。

バイナリ/オーディナル変数からテトラコリック/ポリコリック相関を計算し、LDAに送信できます（プログラムがデータの代わりに相関行列を入力できる場合）。ただし、ケースレベルでの判別スコアの計算には問題があります。

より柔軟なアプローチは、最適なスケーリング/定量化によって、カテゴリー（順序、名義）変数を連続に変えることです。非線形正準相関分析（OVERALS）。これは、2つの側（クラス変数とカテゴリカルな「予測子」）間の正準相関を最大化するタスクの下で実行されます。次に、変換された変数を使用してLDAを試すことができます。

（多項式またはバイナリ）ロジスティック回帰は、LDAの別の代替手段になる場合があります。

— ttnphns
ソース

これは、状況（ロジスティック回帰）を目的としたモデルを使用するよりもはるかに複雑です。判別分析は、一部の人が考えるほど堅牢ではありません。事後確率がdaを形成することをバイナリである単一のカテゴリカル予測子で示すのは簡単ではありません（たとえば、被験者の性別によるイベントの確率を予測します）。

— フランクハレル