私は、線形判別分析とロジスティック回帰の統計的な違いに頭を悩ませようとしています。2クラス分類問題の場合、LDAは交差する線形境界を作成する2つの標準密度関数(各クラスに1つ)を予測しますが、ロジスティック回帰は2つのクラス間の対数奇数関数のみを予測することを理解しています境界を作成しますが、各クラスの密度関数を想定していませんか?
私は、線形判別分析とロジスティック回帰の統計的な違いに頭を悩ませようとしています。2クラス分類問題の場合、LDAは交差する線形境界を作成する2つの標準密度関数(各クラスに1つ)を予測しますが、ロジスティック回帰は2つのクラス間の対数奇数関数のみを予測することを理解しています境界を作成しますが、各クラスの密度関数を想定していませんか?
回答:
あなたは正しいと私には聞こえます。実際、ロジスティック回帰では、予測変数の空間における特定の密度の形状を想定していませんが、LDAは想定しています。以下に、2つの分析のいくつかの違いを簡単に示します。
バイナリロジスティック回帰(BLR)対線形判別分析(2つのグループ:フィッシャーのLDAとも呼ばれます):
BLR:最尤推定に基づいています。LDA:最小二乗推定に基づいています。バイナリ予測を使用した線形回帰に相当します(係数は比例し、R-square = 1-Wilk's lambda)。
BLR:(グループメンバーシップの)確率をすぐに(予測値自体を確率と見なし、観測値として)推定します。LDA:条件付き情報と周辺情報の両方を使用する分類デバイス(単純ベイズなど)を介して、確率を中間的に予測します(予測値はビン連続変数、判別式と見なされます)。
BLR:予測の規模と分布の形式のレベルにはそれほど強くありません。LDA:予測変数は、多変量正規分布の区間レベルであることが望ましい。
BLR:予測変数のグループ内共分散行列に関する要件はありません。LDA:グループ内共分散行列は母集団が同一である必要があります。
BLR:外れ値にそれほど敏感ではありません。LDA:外れ値にかなり敏感です。
BLR:より若い方法。LDA:古い方法。
BLR:それほど強くない/より堅牢であるため、通常は好まれます。LDA:すべての要件が満たされているため、多くの場合、BLRよりも適切に分類されます(漸近的な相対効率は3/2倍高くなります)。
@ttnphnsナイスリストにいくつかのポイントを追加します。
LDAの事後クラスメンバシップ確率のベイズ予測もロジスティック曲線に従います。
[エフロン、B。通常の判別分析と比較したロジスティック回帰の効率、J Am Stat Assoc、70、892-898(1975)。]
その論文は、LDAの仮定が満たされた場合、LDAの相対的効率がLRより優れていることを示しています(参照:上記のエフロンの論文、@ tthnpsの最後のポイント)。
[Hastie、T. and Tibshirani、R. and Friedman、J. The Elements of Statistics Learning; データマイニング、推論および予測Springer Verlag、ニューヨーク、2009年]
LDAの大幅に増加した相対効率は、ほとんどの場合、絶対誤差が実際に無視できる漸近的な場合に発生します。
[Harrell、FE&Lee、KL多変量正規性下での判別分析とロジスティック回帰の識別の比較、生物統計学:生物医学の統計、公衆衛生および環境科学、333-343(1985)。]
実際には、LDAが優れていると思われる高次元の小さなサンプルサイズの状況に遭遇しました(多変量正規性と等共分散行列の仮定が明らかに満たされていないにもかかわらず)。
[ Beleites、C .; ガイガー、K。キルシュ、M .; ソボトカ、SB; Schackert、G.&Salzer、R.星状細胞腫組織のラマン分光グレーディング:ソフトリファレンス情報を使用。AnalBioanal Chem、400、2801-2816(2011)。DOI:10.1007 / s00216-011-4985-4 ]
しかし、私たちの論文では、LRは、(ほぼ)完全な分離可能性を持つ方向を見つけることができるという問題に苦労している可能性があることに注意してください。一方、LDAはそれほど厳しくないかもしれません。
LDAの有名な仮定は、最適性を証明するためにのみ必要です。それらが満たされない場合、手順はまだ良い発見的方法でありえます。
実際に私にとって重要な違いは、私が取り組んでいる分類の問題が実際に明確な分類の問題ではないことが時々あるためです。結局のところ、それは回帰技術です。
[上記リンクの論文を参照]
LRは、クラスの境界付近の例にLDAよりも集中し、基本的に分布の「裏側」のケースを無視すると言うことができます。
これは、LDAよりも外れ値(つまり、裏側の値)に対する感度が低い理由も説明しています。
(サポートベクターマシンは、この方向を最後まで行う分類子になります。ここでは、境界のケースを除くすべてが無視されます)