判別分析とロジスティック回帰


16

判別分析の長所をいくつか見つけましたが、それらについて質問があります。そう:

クラスが十分に分離されている場合、ロジスティック回帰のパラメーター推定値は驚くほど不安定です。係数は無限大になる可能性があります。LDAはこの問題の影響を受けません。

特徴の数が少なく、予測子分布が 各クラスでほぼ正規の場合、線形判別モデルはロジスティック回帰モデルよりも安定しています。X

  1. 安定性とは何ですか、なぜそれが重要なのですか?(ロジスティック回帰がその仕事に適している場合、なぜ安定性を気にする必要があるのですか?)

LDAは、データの低次元ビューも提供するため、3つ以上の応答クラスがある場合に人気があります。

  1. 私はそれを理解していません。LDAは低次元ビューをどのように提供しますか?
  2. もっと長所や短所を挙げられるなら、それはいいことです。

3
このトピックに関する他のQ / A(ldaとロジスティック)を読むこともできます。このサイトを検索してください。
ttnphns

回答:


13

クラスが十分に分離されている場合、ロジスティック回帰のパラメーター推定値は驚くほど不安定です。係数は無限大になる可能性があります。LDAはこの問題の影響を受けません。

バイナリの結果を完全に予測できる共変量の値がある場合、ロジスティック回帰のアルゴリズム、つまりフィッシャーのスコアリングも収束しません。RまたはSASを使用している場合、0および1の確率が計算され、アルゴリズムがクラッシュしたという警告が表示されます。これは完全な分離の極端な場合ですが、データが完全に分離されずにかなり分離されている場合でも、最尤推定量が存在しない可能性があり、存在しても推定値は信頼できません。結果の適合はまったく良くありません。このサイトには分離の問題を扱っているスレッドがたくさんありますので、ぜひご覧ください。

対照的に、フィッシャーの判別式の推定問題に遭遇することはあまりありません。共分散行列間または共分散行列のいずれかが特異である場合でも、それは起こり得ますが、それはかなりまれなインスタンスです。実際、判別式が成功する可能性が高いので、完全な分離または準完全な分離があれば、さらに良い結果が得られます。

また、一般的な信念に反して、LDAは分布の仮定に基づいていないことも言及する価値があります。プールされた推定量が共分散行列内で使用されるため、母集団共分散行列の等価性のみを暗黙的に必要とします。正規性、同等の事前確率、誤分類コストの追加の仮定の下で、LDAは誤分類の確率を最小化するという意味で最適です。

LDAは低次元ビューをどのように提供しますか?

2つの母集団と2つの変数の場合は、簡単にわかります。その場合のLDAの動作を図で示します。分離可能性を最大化する変数の線形結合を探していることを思い出してください。 ここに画像の説明を入力してください

したがって、データは、方向がこの分離をよりよく達成するベクトルに投影されます。どのようにしてベクトルが線形代数の興味深い問題であるかを見つける方法は、基本的にレイリー商を最大化しますが、ここではそれを無視しましょう。データがそのベクトルに投影される場合、次元は2から1に縮小されます。

pg min(g1,p

もっと長所や短所を挙げられるなら、それはいいことです。

それにもかかわらず、低次元の表現には欠点がありますが、最も重要なものはもちろん情報の損失です。データが線形に分離可能である場合、これは問題ではありませんが、そうでない場合、情報の損失は相当なものになる可能性があり、分類器のパフォーマンスは低下します。

また、共分散行列の等式が受け入れ可能な仮定ではない場合もあります。確認するためにテストを使用できますが、これらのテストは正常からの逸脱に非常に敏感であるため、この追加の仮定を行い、テストする必要があります。母集団が等しくない共分散行列で正常であることがわかった場合、代わりに二次分類規則(QDA)が使用される可能性がありますが、高次元での直感に反することは言うまでもなく、これはかなり厄介な規則であることがわかります

全体として、LDAの主な利点は、SVMやニューラルネットワークなどのより高度な分類手法には当てはまらない明示的なソリューションとその計算上の利便性の存在です。私たちが支払う価格は、それに伴う一連の仮定、つまり線形分離可能性と共分散行列の等式です。

お役に立てれば。

編集:私が述べた特定のケースのLDAは共分散行列の等式以外の分布仮定を必要としないという私の主張は疑わしいと思う。それにも関わらず、これはそれほど真実ではないので、より具体的にさせてください。

x¯i, i=1,2Spooled

maxa(aTx¯1aTx¯2)2aTSpooleda=maxa(aTd)2aTSpooleda

この問題の解決策(定数まで)は、

a=Spooled1d=Spooled1(x¯1x¯2)

これは、正規性、等しい共分散行列、誤分類コスト、事前確率の仮定の下で導き出したLDAと同等ですか?はい、そうではありませんが、正常性を仮定していません

共分散行列が実際に等しくない場合でも、すべての設定で上記の判別式を使用することを妨げるものはありません。誤分類の予想コスト(ECM)という意味では最適ではないかもしれませんが、これは教師付き学習であるため、たとえばホールドアウト手順を使用して、常にパフォーマンスを評価できます。

参照資料

ビショップ、クリストファーM.パターン認識用のニューラルネットワーク。オックスフォード大学出版局、1995。

ジョンソン、リチャード・アーノルド、ディーン・W・ウィッチャーン。多変量統計分析を適用しました。巻 4.ニュージャージー州イングルウッドクリフス:プレンティスホール、1992年。


1
(私はダウン投票したユーザーではありません)。あなたの答えをフランク・ハレルのものと調和させるために、すべての変数が連続的であると仮定する必要があると思われます(そうでなければ、レイリーの商の最大値は一意ではないと思います)。
user603

1
@ user603この状態はどこにも見られません。とにかく解決策は定数までしか決定されません。
JohnK

ジョン、同一の対称(楕円)分布を持ち、事前確率が等しいクラスが2つしかない(したがって、判別線が1つしかない)ことを想像してください。それから実際には、ケースをクラスに割り当てるためにpdfを必要としないため、特に正規分布を仮定する必要はありません。より複雑な設定(3+クラスなど)では、いくつかのpdfを使用する必要があり、通常は正常です。
ttnphns

1
W1BWB

1
ジョン、あなたの最後のコメントはあなたと私が同意するものです。
ttnphns

10

LDAは、ロジスティック回帰とは異なり、厳しい分布の仮定(すべての予測変数の多変量正規性)を行います。被験者の性別に基づいてクラスメンバーシップの事後確率を取得してみてください。意味がわかります。確率は正確ではありません。

Y=1β±±30

詳しくはこちらをご覧ください。

多変数正規性が保持される場合、ベイズの定理により、ロジスティック回帰の仮定が保持されることに注意してください。その逆は当てはまりません。

正規性(または少なくとも対称性)は、分散と共分散が「仕事をする」ためにほとんど保持されなければなりません。非多変量正規分布予測子は、判別抽出フェーズを損なうことさえあります。


1
私の考えでは、LDAの分類(クラス予測)段階では、特に正規性が必要です。判別式抽出(次元削減)の段階では必要ありませんが、それでも分散共分散の均一性を前提としています。(興味深いことに、分類では後者の仮定が多少解放される可能性があります。そこでは、判別式に個別のクラス内共分散を使用できます。)
ttnphns

3
tt

2
t

2
はいSDはさまざまな仮定を行い、堅牢ではありません。あまり意味がありませんが、平均はいくつかの仮定が意味を持つようにします。最小二乗、PCA、およびLDA は、多くの人が考えるよりも効果的に分布上の仮定を行います。
フランクハレル

2
私はこの推論に納得しておらず、今でも下票は不公平であると信じていますが、私はこの問題に対する権威ではありません。しかし、私が提供した参考文献でも同じことが言えます。
JohnK

0

クラスが十分に分離されている場合、ロジスティック回帰のパラメーター推定値は驚くほど不安定です。係数は無限大になる可能性があります。LDAはこの問題の影響を受けません。

免責事項: ここに続くものは数学的な厳密さを完全に欠いています。

(非線形)関数をうまく適合させるには、「形状が変化する」関数のすべての領域での観測が必要です。ロジスティック回帰は、シグモイド関数をデータに適合させます。

ここに画像の説明を入力してください

十分に分離されたクラスの場合、すべての観測値は、シグモイドが漸近線(0と1)に近づく2つの「端」に分類されます。いわば、これらの領域ではすべてのシグモイドが「同じように見える」ため、貧弱な適合アルゴリズムが「正しいもの」を見つけるのが困難になるのも不思議ではありません。

Rのglm()関数で計算された2つの(できれば有益な)例を見てみましょう。

ケース1: 2つのグループはある程度重複しています:

ここに画像の説明を入力してください

そして、観測は、適合したシグモイドの変曲点の周りにうまく分布しています。

ここに画像の説明を入力してください

これらは、標準誤差が非常に小さい適合パラメータです。

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -17.21374    4.07741  -4.222 2.42e-05 ***
wgt           0.35111    0.08419   4.171 3.04e-05 ***

逸脱も問題ないようです:

    Null deviance: 138.629  on 99  degrees of freedom
Residual deviance:  30.213  on 98  degrees of freedom

ケース2: 2つのグループは十分に分離されています。

ここに画像の説明を入力してください

そして、観察はすべて漸近線に実質的に横たわっています。glm()その変曲点を中心に「シグモイド右の形状を得る」ために利用可能な観測が単に存在しないため、この関数は、何かに合うように最善を試してみましたが、およそ数値的に0または1の確率を訴えました。

ここに画像の説明を入力してください

推定パラメーターの標準誤差が屋根を通過することに注意することにより、問題を診断できます。

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -232.638 421264.847  -0.001        1
wgt              5.065   9167.439   0.001        1

同時に、逸脱は疑わしいほど良く見えます(観察結果が漸近線によく適合するため):

    Null deviance: 1.3863e+02  on 99  degrees of freedom
Residual deviance: 4.2497e-10  on 98  degrees of freedom

少なくとも直観的には、これらの考慮事項から、「ロジスティック回帰のパラメーター推定値が驚くほど不安定である」理由が明らかになるはずです。


@Frank Harrellの答えを見てください。そして、そのリンクと参考文献を研究します...
kjetil b halvorsen

@kjetilbhalvorsen私の主なポイントは、「驚くほど不安定」なフィット感の直感的な説明です。LDAに関する最後の文を削除しました。
ラリックスデシドゥア
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.