回帰分析と線形判別分析(LDA)の関係は何ですか?


24

回帰分析と線形判別分析(LDA)の間に関係はありますか?それらの類似点と相違点は何ですか?2つのクラスがある場合、または3つ以上のクラスがある場合、違いはありますか?


3
読者への注記:質問はあいまいであり、ロジスティック回帰または線形回帰について質問していると理解できます。OPは両方の側面に興味を持っていたようです(コメントを参照)。受け入れられている答えは線形回帰についてですが、他のいくつかの答えはロジスティック回帰に焦点を当てています。
アメーバは、Reinstate Monica

回答:


20

質問はLDAと線形(ロジスティックではない)回帰に関するものだと思います。

線形回帰分析線形判別分析の間には、かなり有意義な関係があります。従属変数(DV)が2つのグループのみで構成される場合、2つの分析は実際には同一です。計算は異なり、結果(回帰係数と判別係数)は同じではありませんが、それらは互いに正確に比例しています。

2つ以上のグループの状況について説明します。最初に、グループ化DVをダミー変数のセット(それらの1つが削除された)に変換し、正準化を行う場合、LDA(分類段階ではなく抽出)は正準相関分析と同等(線形に関連する結果)であると述べましょう「IV」と「ダミー」のセットによる分析。取得する「IV」セットの側の正規の変量は、LDAが「識別関数」または「識別子」と呼ぶものです。

それでは、正準分析は線形回帰とどのように関係していますか?カノニカル分析は、本質的にMANOVA(「多変量多重線形回帰」または「多変量一般線形モデル」という意味)が潜在構造に深化したものです。DVとIVの間の関係の。これらの2つのバリエーションは、相互関係において潜在的な「標準的なバリエーション」に分解されます。最も単純な例、Y対X1 X2 X3を見てみましょう。両側間の相関の最大化は線形回帰(YをXsで予測する場合)または-同じことです-MANOVA(XsをYで予測する場合)です。より小さいセットYは1つの変数のみで構成されているため、相関は一次元です(大きさR ^ 2 = Pillaiのトレースを使用)。では、Y1 Y2 vs X1 x2 x3の2つのセットを見てみましょう。ここで最大化される相関は、下位のセットに2つの変数が含まれるため、2次元です。相関の最初のより強力な潜在次元は、1番目の正準相関と呼ばれ、それに直交する残りの部分は2番目の正準相関と呼ばれます。そう、MANOVA(または線形回帰)は、セットの2次元相関全体における変数の部分的な役割(係数)を尋ねるだけです。一方、正準分析では、第1相関ディメンションと第2相関ディメンションの変数の部分的な役割を尋ねるために以下に進みます。

したがって、正準相関分析は、DVとIVの間の関係の潜在構造に深化された多変量線形回帰です。判別分析は、正準相関分析の特定のケースです方法を参照)。したがって、ここに、2グループ以上の一般的なケースでのLDAと線形回帰の関係に関する答えがありました。

私の答えは、LDAを分類手法とはまったく見なしていないことに注意してください。LDAを潜在的な抽出手法としてのみ議論していました。分類はLDAの2番目のスタンドアロン段階です(ここで説明します)。@Michael Chernickは彼の答えでそれに焦点を合わせていました。


「正準相関分析」が必要な理由と、ここで何をするのですか?ありがとう。
-zca0

1
+1(かなり前)。MANOVA / CCA / XとグループダミーYのマトリックスとLDA(3つ以上のグループの一般的な場合)の間のこの関係を(詳細に)議論する参考文献を知っていますか?私は現在このトピックを研究しており、多かれ少なかれすでにそれを理解していると思いますが、検索するregression formulation of LDAと何かを見つけることは驚くほど困難です-2000年以降にそのような製剤が存在しない、または提案しようとしています。おそらく良い[古い]参照がありますか?
アメーバは、モニカを復活させる

3
うーん..すぐに頭に浮かぶ論文がいくつかありますHarry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple RegressionW. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal ScalingOlcay Kursun et al. Canonical correlation analysis using within-class coupling。あなたがインターネットでそれらを見つけることができないならば、私はあなたを送ることができます。より多くのより良いソースを見つけたら-お知らせください。
ttnphns

1
私の文章は、回帰(MANOVA)の結果だけが手元にあるCCA係数を取得できることを意味するものではありませんでした。MANOVAは「表面」であり、CCAは同じ分析企業のより「深い」層であると言っていました。それらが同義語であるとか、一方が他方の明白な特定のケースであるとは言いませんでした。
ttnphns

1
そうですか。ここに別の回答を投稿し、LDA /回帰の同等性の数学的詳細を提供することにしました。
アメーバは、モニカーを復活させる

11

エフロンの論文の1つへの参照があります:1975年の正規判別分析と比較したロジスティック回帰の効率

別の関連する論文は、Ng&Jordan、2001、On Discriminative vs.Generative classifierers:A比較のロジスティック回帰と単純ベイズです。そして、Xue&Titteringtonによる2008年のコメントの要約は博士論文に関連するO'Neillの論文に言及しています。

生成分類器と識別分類器の比較は、これからも続くトピックです。このトピックへの重要な貢献として、ナイーブベイズ分類器と線形ロジスティック回帰の理論的および経験的比較に基づいて、NgとJordan(NIPS 841--848、2001)は、生成と生成の間に2つの明確なパフォーマンスのレジームがあると主張しましたトレーニングセットのサイズに関する判別分類器。しかし、この論文では、我々の経験的およびシミュレーション研究は、彼らの研究を補完するものとして、2つの異なる体制の存在はそれほど信頼できないかもしれないことを示唆しています。さらに、現実世界のデータセットの場合、これまでのところ、観測の分類に対する判別的アプローチと生成的アプローチのどちらを選択するかについて、理論的に正しい一般的な基準はありません。xをクラスy ; 選択は、p(y|xまたは p x y の指定の正確さに対する相対的な信頼度に依存します。pバツy データ用。これは、エフロン(J Am Stat Assoc 70(352):892 --- 898、1975)とオニール(J Am Stat Assoc 75(369):154--160、1980 )モデルの仕様の誤りが発生しない場合に正規ベースの線形判別分析(LDA)を好むが、他の実証研究では代わりに線形ロジスティック回帰を好む場合があります。さらに、一般的な対角共分散行列(LDA)を想定したLDAまたは単純ベイズ分類器と線形ロジスティック回帰のいずれかのペアリングは完全ではない可能性があるため、LDAの比較から得られたクレームに対して信頼性がない可能性がありますまたは、単純なベイズ分類器と線形ロジスティック回帰をすべての生成分類器および識別分類器に一般化する。

あなたはオンラインで見つけることができますこれに関する他の多くの参照があります。


ロジスティック回帰対LDAの(現在OPによって明確化されている)主題に関する多くの適切に配置された参照に対して+1。
マクロ

1
QuoraのYaroslav Bulatovによる生成分類子と識別分類子の別の比較を次に示し
Pardis

関連トピック、stats.stackexchange.com
q / 95247/

7

この回答の目的は、線形判別分析(LDA)と多変量線形回帰(MLR)の正確な数学的関係を説明することです。正しいランクのフレームワークは、ランクの低下回帰(RRR)によって提供されることがわかります。

LDAは、データマトリックス上の白色化されたクラスインジケーターマトリックスのRRRと同等であることを示します。


表記法

LET であり、N × Dのデータ点と行列xは Iの列の行及び変数です。各ポイントは、kクラスまたはグループのいずれかに属します。点x iはクラス番号g i )に属します。Xn×dxikxig(i)

LET であり、N × Kを次のようにグループメンバーシップをコードインジケータ行列:G 、I 、J = 1ならば、X iは、クラスに属するJ、及びGn×kGij=1xijそうでありません。クラス jに n j 個のデータポイントがあります。もちろん、n j = nです。Gij=0njjnj=n

データは中央に配置されているため、グローバル平均はゼロに等しく、と想定しています。してみましょうμ jはクラスの平均もJμ=0μjj

LDA

総散乱行列以下のように定義されたクラス間及びクラス内散乱行列の和に分解することができる: Cを BC=XXC=Cb+Cwで あることを確認できます。LDAは、投影のグループ間分散が最大でグループ内分散が最小の判別軸を検索します。具体的には、最初の判別軸は単位ベクトルであり、wは最大限wはCのBワット/wをC

Cb=jnjμjμjCw=(xiμg(i))(xiμg(i)).
C=Cb+Cwwと、第1のp行列に積層判別軸 Wは、トレースを最大化すべきである L L D Aが = TR WC B WWC W W - 1wCbw/(wCww)pW
LLDA=tr(WCbW(WCwW)1).

がフルランクであると仮定すると、LDAソリューションW L DCwは、 C 1 w C bの固有ベクトルの行列です(降順の固有値で並べられています)。WLDACw1Cb

これはいつもの話でした。次に、2つの重要な観察を行います。

最初に、クラス内の散布図行列は、全体の散布図行列で置き換えることができます(最終的には、を最大化することは、bb/w)、実際、 C 1 C bが同じ固有ベクトル。b/(b+w)C1Cb

第二に、クラス間散布行列は、上記で定義したグループメンバーシップ行列を介して表現できます。実際、グループ合計の行列です。グループ平均の行列を取得するには、n jを対角に持つ対角行列を乗算する必要があります。それは次式で与えられますGG。したがって、グループ手段の行列であるGG - = XGGG - 1 GX すべてのn jが同一で等しい場合GXnjGGsapientiそれは回帰式だと意思通知)。取得するには Cを bは、我々は取得、同じ対角行列で重み付けその散布行列を、取る必要がある C Bを(GG)1GXCb

Cb=XG(GG)1GX.
nj( "平衡データセット")、この式を簡素化する XG GX / MmXGGX/m

我々は、正規化されたインジケータ行列を定義することができる有するものとして1 / G~1/njG1Cb=XG~G~XG~G~=G(GG)1/2

回帰

簡単にするために、バランスの取れたデータセットの場合から始めます。

GXBGXB2BpBB=DFDFp

DWLDA

DFF=(DXXD)1DXG

GバツDDバツバツD1DバツG2
A2=tr(AA). After easy manipulations we get that the regression is equivalent to maximizing (!) the following scary trace:
tr(DXGGXD(DXXD)1),
which is actually nothing else than
=tr(DCbD(DCD)1)/mLLDA.

This finishes the proof. For unbalanced datasets we need to replace G with G~.

One can similarly show that adding ridge regularization to the reduced rank regression is equivalent to the regularized LDA.

Relationship between LDA, CCA, and RRR

In his answer, @ttnphns made a connection to canonical correlation analysis (CCA). Indeed, LDA can be shown to be equivalent to CCA between X and G. In addition, CCA between any Y and X can be written as RRR predicting whitened Y from X. The rest follows from this.

Bibliography

It is hard to say who deserves the credit for what is presented above.

There is a recent conference paper by Cai et al. (2013) On The Equivalent of Low-Rank Regressions and Linear Discriminant Analysis Based Regressions that presents exactly the same proof as above but creates the impression that they invented this approach. This is definitely not the case. Torre wrote a detailed treatment of how most of the common linear multivariate methods can be seen as reduced rank regression, see A Least-Squares Framework for Component Analysis, 2009, and a later book chapter A unification of component analysis methods, 2013; he presents the same argument but does not give any references either. This material is also covered in the textbook Modern Multivariate Statistical Techniques (2008) by Izenman, who introduced RRR back in 1975.

The relationship between LDA and CCA apparently goes back to Bartlett, 1938, Further aspects of the theory of multiple regression -- that's the reference I often encounter (but did not verify). The relationship between CCA and RRR is described in the Izenman, 1975, Reduced-rank regression for the multivariate linear model. So all of these ideas have been around for a while.


詳細と私の回答を参照し、ここでRRRを紹介してくれました(この壮大な/形成可能な代数をすべて引き裂くために座る前に未知の時間が経過するので、事前に投票してください!)
ttnphns

0

Linear regression and linear discriminant analysis are very different. Linear regression relates a dependent variable to a set of independent predictor variables. The idea is to find a function linear in the parameters that best fits the data. It does not even have to be linear in the covariates. Linear discriminant analysis on the other hand is a procedure for classifying objects into categories. For the two-class problem it seeks to find the best separating hyperplane for dividing the groups into two catgories. Here best means that it minimizes a loss function that is a linear combination of the error rates. For three or more groups it finds the best set of hyperplanes (k-1 for the k class problem). In discriminant analysis the hypoerplanes are linear in the feature variables.

The main similarity between the two is term linear in the titles.


Sorry, I wrote wrong. Should be regression and LDA. I saw some articles about linear discriminants via regression, but I don't know how it works. I think LDA and logistic regression for two classes have some relations but cannot tell very clearly what they are. And for more than two classes, I don't know if there are any relations.
zca0

1
Yes there is a relationship between logistic regression and linear discriminant analysis. Efron and his student Terry O'Neilll wrote about this in the late 1970s. I will try to find a link to a reference.
Michael R. Chernick

2
Here is a related question and answers on CV. stats.stackexchange.com/questions/14697/…
Michael R. Chernick

-1 because actually there is a deep relation between LDA and regression, as both @ttnphns and myself explain in our answers.
amoeba says Reinstate Monica
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.