回答:
質問はLDAと線形(ロジスティックではない)回帰に関するものだと思います。
線形回帰分析と線形判別分析の間には、かなり有意義な関係があります。従属変数(DV)が2つのグループのみで構成される場合、2つの分析は実際には同一です。計算は異なり、結果(回帰係数と判別係数)は同じではありませんが、それらは互いに正確に比例しています。
2つ以上のグループの状況について説明します。最初に、グループ化DVをダミー変数のセット(それらの1つが削除された)に変換し、正準化を行う場合、LDA(分類段階ではなく抽出)は正準相関分析と同等(線形に関連する結果)であると述べましょう「IV」と「ダミー」のセットによる分析。取得する「IV」セットの側の正規の変量は、LDAが「識別関数」または「識別子」と呼ぶものです。
それでは、正準分析は線形回帰とどのように関係していますか?カノニカル分析は、本質的にMANOVA(「多変量多重線形回帰」または「多変量一般線形モデル」という意味)が潜在構造に深化したものです。DVとIVの間の関係の。これらの2つのバリエーションは、相互関係において潜在的な「標準的なバリエーション」に分解されます。最も単純な例、Y対X1 X2 X3を見てみましょう。両側間の相関の最大化は線形回帰(YをXsで予測する場合)または-同じことです-MANOVA(XsをYで予測する場合)です。より小さいセットYは1つの変数のみで構成されているため、相関は一次元です(大きさR ^ 2 = Pillaiのトレースを使用)。では、Y1 Y2 vs X1 x2 x3の2つのセットを見てみましょう。ここで最大化される相関は、下位のセットに2つの変数が含まれるため、2次元です。相関の最初のより強力な潜在次元は、1番目の正準相関と呼ばれ、それに直交する残りの部分は2番目の正準相関と呼ばれます。そう、MANOVA(または線形回帰)は、セットの2次元相関全体における変数の部分的な役割(係数)を尋ねるだけです。一方、正準分析では、第1相関ディメンションと第2相関ディメンションの変数の部分的な役割を尋ねるために以下に進みます。
したがって、正準相関分析は、DVとIVの間の関係の潜在構造に深化された多変量線形回帰です。判別分析は、正準相関分析の特定のケースです(方法を参照)。したがって、ここに、2グループ以上の一般的なケースでのLDAと線形回帰の関係に関する答えがありました。
私の答えは、LDAを分類手法とはまったく見なしていないことに注意してください。LDAを潜在的な抽出手法としてのみ議論していました。分類はLDAの2番目のスタンドアロン段階です(ここで説明します)。@Michael Chernickは彼の答えでそれに焦点を合わせていました。
regression formulation of LDA
と何かを見つけることは驚くほど困難です-2000年以降にそのような製剤が存在しない、または提案しようとしています。おそらく良い[古い]参照がありますか?
Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression
。W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling
。Olcay Kursun et al. Canonical correlation analysis using within-class coupling
。あなたがインターネットでそれらを見つけることができないならば、私はあなたを送ることができます。より多くのより良いソースを見つけたら-お知らせください。
エフロンの論文の1つへの参照があります:1975年の正規判別分析と比較したロジスティック回帰の効率。
別の関連する論文は、Ng&Jordan、2001、On Discriminative vs.Generative classifierers:A比較のロジスティック回帰と単純ベイズです。そして、Xue&Titteringtonによる2008年のコメントの要約は、博士論文に関連するO'Neillの論文に言及しています。
生成分類器と識別分類器の比較は、これからも続くトピックです。このトピックへの重要な貢献として、ナイーブベイズ分類器と線形ロジスティック回帰の理論的および経験的比較に基づいて、NgとJordan(NIPS 841--848、2001)は、生成と生成の間に2つの明確なパフォーマンスのレジームがあると主張しましたトレーニングセットのサイズに関する判別分類器。しかし、この論文では、我々の経験的およびシミュレーション研究は、彼らの研究を補完するものとして、2つの異なる体制の存在はそれほど信頼できないかもしれないことを示唆しています。さらに、現実世界のデータセットの場合、これまでのところ、観測の分類に対する判別的アプローチと生成的アプローチのどちらを選択するかについて、理論的に正しい一般的な基準はありません。をクラス ; 選択は、または p (x 、y )の指定の正確さに対する相対的な信頼度に依存します。 データ用。これは、エフロン(J Am Stat Assoc 70(352):892 --- 898、1975)とオニール(J Am Stat Assoc 75(369):154--160、1980 )モデルの仕様の誤りが発生しない場合に正規ベースの線形判別分析(LDA)を好むが、他の実証研究では代わりに線形ロジスティック回帰を好む場合があります。さらに、一般的な対角共分散行列(LDA)を想定したLDAまたは単純ベイズ分類器と線形ロジスティック回帰のいずれかのペアリングは完全ではない可能性があるため、LDAの比較から得られたクレームに対して信頼性がない可能性がありますまたは、単純なベイズ分類器と線形ロジスティック回帰をすべての生成分類器および識別分類器に一般化する。
あなたはオンラインで見つけることができますこれに関する他の多くの参照があります。
この回答の目的は、線形判別分析(LDA)と多変量線形回帰(MLR)の正確な数学的関係を説明することです。正しいランクのフレームワークは、ランクの低下回帰(RRR)によって提供されることがわかります。
LDAは、データマトリックス上の白色化されたクラスインジケーターマトリックスのRRRと同等であることを示します。
LET であり、N × Dのデータ点と行列xは Iの列の行及び変数です。各ポイントは、kクラスまたはグループのいずれかに属します。点x iはクラス番号g (i )に属します。
LET であり、N × Kを次のようにグループメンバーシップをコードインジケータ行列:G 、I 、J = 1ならば、X iは、クラスに属するJ、及びそうでありません。クラス jには n j 個のデータポイントがあります。もちろん、 ∑ n j = nです。
データは中央に配置されているため、グローバル平均はゼロに等しく、と想定しています。してみましょうμ jはクラスの平均もJ。
総散乱行列以下のように定義されたクラス間及びクラス内散乱行列の和に分解することができる: Cを BC=Cb+Cwで あることを確認できます。LDAは、投影のグループ間分散が最大でグループ内分散が最小の判別軸を検索します。具体的には、最初の判別軸は単位ベクトルであり、wは最大限wは⊤CのBワット/(wを⊤C
がフルランクであると仮定すると、LDAソリューションW L Dは、 C − 1 w C bの固有ベクトルの行列です(降順の固有値で並べられています)。
これはいつもの話でした。次に、2つの重要な観察を行います。
最初に、クラス内の散布図行列は、全体の散布図行列で置き換えることができます(最終的には、を最大化することは、b)、実際、 C − 1 C bが同じ固有ベクトル。
第二に、クラス間散布行列は、上記で定義したグループメンバーシップ行列を介して表現できます。実際、グループ合計の行列です。グループ平均の行列を取得するには、n jを対角に持つ対角行列を乗算する必要があります。それは次式で与えられますG ⊤ G。したがって、グループ手段の行列である(G ⊤ G )- = X ⊤ G(G ⊤ G )- 1 G ⊤ X。 すべてのn jが同一で等しい場合(sapientiそれは回帰式だと意思通知)。取得するには Cを bは、我々は取得、同じ対角行列で重み付けその散布行列を、取る必要がある C Bを
我々は、正規化されたインジケータ行列を定義することができる有するものとして1 / √
簡単にするために、バランスの取れたデータセットの場合から始めます。
This finishes the proof. For unbalanced datasets we need to replace with .
One can similarly show that adding ridge regularization to the reduced rank regression is equivalent to the regularized LDA.
In his answer, @ttnphns made a connection to canonical correlation analysis (CCA). Indeed, LDA can be shown to be equivalent to CCA between and . In addition, CCA between any and can be written as RRR predicting whitened from . The rest follows from this.
It is hard to say who deserves the credit for what is presented above.
There is a recent conference paper by Cai et al. (2013) On The Equivalent of Low-Rank Regressions and Linear Discriminant Analysis Based Regressions that presents exactly the same proof as above but creates the impression that they invented this approach. This is definitely not the case. Torre wrote a detailed treatment of how most of the common linear multivariate methods can be seen as reduced rank regression, see A Least-Squares Framework for Component Analysis, 2009, and a later book chapter A unification of component analysis methods, 2013; he presents the same argument but does not give any references either. This material is also covered in the textbook Modern Multivariate Statistical Techniques (2008) by Izenman, who introduced RRR back in 1975.
The relationship between LDA and CCA apparently goes back to Bartlett, 1938, Further aspects of the theory of multiple regression -- that's the reference I often encounter (but did not verify). The relationship between CCA and RRR is described in the Izenman, 1975, Reduced-rank regression for the multivariate linear model. So all of these ideas have been around for a while.
Linear regression and linear discriminant analysis are very different. Linear regression relates a dependent variable to a set of independent predictor variables. The idea is to find a function linear in the parameters that best fits the data. It does not even have to be linear in the covariates. Linear discriminant analysis on the other hand is a procedure for classifying objects into categories. For the two-class problem it seeks to find the best separating hyperplane for dividing the groups into two catgories. Here best means that it minimizes a loss function that is a linear combination of the error rates. For three or more groups it finds the best set of hyperplanes (k-1 for the k class problem). In discriminant analysis the hypoerplanes are linear in the feature variables.
The main similarity between the two is term linear in the titles.