MANOVAはLDAとどのように関連していますか？

いくつかの場所で、MANOVAはANOVAと線形判別分析（LDA）に似ているが、常に手を振るような方法で作成されたという主張を見ました。正確に何を意味するのか知りたいです。

MANOVA計算のすべての詳細を説明するさまざまな教科書を見つけましたが、統計学者ではない人がアクセスできる適切な一般的な議論（写真は言うまでもありません）を見つけるのは非常に難しいようです。

anova discriminant-analysis manova

LDA相対ANOVAとMANOVAの私自身のローカルアカウントがあり、これを、この。多分彼らは手を振っていますが、ある程度あなたのトピックに取り組んでいます。そこにある重要なことは、「LDAはMANOVAが潜在的な構造に沈んでいる」ということです。MANOVAは非常に豊富な仮説検定機能です。とりわけ、違いの潜在的な構造を分析できます。この分析にはLDAが含まれます。

— ttnphns 14年

@ttnphns、以前のコメントが配信されなかったのではないかと思う（ユーザー名を入力するのを忘れていた）ので、繰り返してみましょう。すごい、ありがとうございます。投稿する前に私の検索で。それらを消化するのに少し時間がかかり、その後私はあなたに戻ってくるかもしれませんが、多分あなたはすでにこれらのトピックをカバーするいくつかの論文/本を私に指し示すことができますか？私は考え愛するあなたのリンクの答えのスタイルでこのようなものの詳細な議論を参照してください。

— アメーバは、モニカを復活させる14

ただ、1歳とクラシック口座webia.lip6.fr/~amini/Cours/MASTER_M2_IAD/TADTI/HarryGlahn.pdf。ところで、私は今のところ自分でそれを読んでいません。別の関連記事dl.acm.org/citation.cfm?id=1890259。

— ttnphns 14年

@ttnphns：ありがとう。私は自分の質問に対する答えを自分で書いて、基本的にいくつかのイラストと、LDA / MANOVAでのあなたの素晴らしいリンクされた返信への特定の例を提供しました。それらはお互いにうまく補完し合っていると思います。

— アメーバは、モニカを復活させる14

手短に

一元配置のMANOVAとLDAは両方とも、合計散布行列をクラス内散布行列およびクラス間散布行列に分解することから始まり、。これは、一元配置分散分析が総平方和をクラス内およびクラス間の平方和分解する方法に完全に類似していることに注意してください。ANOVAでは、比率が計算され、p値を見つけるために使用されます。この比率が大きいほど、p値は小さくなります。MANOVAとLDAは、類似した多変量数量ます。 $\mathbf T$ $\mathbf W$ $\mathbf B$ $\mathbf T = \mathbf W + \mathbf B$ $T$ $T=B+W$ $B/W$ $\mathbf W^{-1} \mathbf B$

ここからは違います。MANOVAの唯一の目的は、すべてのグループの平均が同じかどうかをテストすることです。この帰無仮説は、サイズが似ていることを意味し。そのためMANOVAは固有分解を実行し、その固有値を見つけます。これは、nullを拒否するのに十分な大きさかどうかをテストすることです。固有値セット全体からスカラー統計を形成する4つの一般的な方法があります。1つの方法は、すべての固有値の合計を取ることです。別の方法は、最大固有値を取ることです。いずれの場合も、選択した統計が十分に大きい場合、帰無仮説は拒否されます。 $\mathbf B$ $\mathbf W$ $\mathbf W^{-1} \mathbf B$ $\lambda_i$ $\lambda_i$

対照的に、LDAは固有分解を実行し、固有ベクトル（固有値ではない）を調べます。これらの固有ベクトルは、変数空間の方向を定義し、判別軸と呼ばれます。最初の判別軸へのデータの投影では、クラスの分離が最も高くなります（として測定）。二番目に-二番目に高い; など。LDAを次元削減に使用すると、データを最初の2つの軸などに投影でき、残りの軸は破棄されます。 $\mathbf W^{-1} \mathbf B$ $B/W$

また、ほぼ同じことを扱っている別のスレッドの@ttnphnsによる優れた回答も参照してください。

例

従属変数との観測値グループ（つまり、3つのレベルを持つ1つの因子）を持つ一方向の場合を考えてみましょう。よく知られているフィッシャーのアヤメのデータセットを使用して、がく片の長さとがく片の幅のみを考慮します（2次元にするため）。散布図は次のとおりです。 $M=2$ $k=3$

フィッシャーアイリス散布図

sep片の長さと幅の両方を別々に使用してANOVAを計算することから始めます。xおよびy軸に垂直または水平に投影されたデータポイントを想像し、3つのグループが同じ平均を持っているかどうかをテストするために一元配置分散分析を実行します。がく片の長さについてはおよびを取得し、がく片の幅についてはおよびを取得します。わかりました。したがって、私の例は、3つのグループが両方のメジャーでとんでもないp値で大きく異なるため、かなり悪いですが、とにかくそれに固執します。 $F_{2,147}=119$ $p=10^{-31}$ $F_{2,147}=49$ $p=10^{-17}$

これで、LDAを実行して、3つのクラスターを最大限に分離する軸を見つけることができます。上記のように、完全な散布行列、クラス内散布行列およびクラス間散布行列を計算し、固有ベクトルを見つけます。同じ散布図に両方の固有ベクトルをプロットできます。 $\mathbf{T}$ $\mathbf{W}$ $\mathbf{B}=\mathbf{T}-\mathbf{W}$ $\mathbf{W}^{-1}\mathbf{B}$

フィッシャーアイリスLDA

破線は判別軸です。それらを任意の長さでプロットしましたが、長い軸は固有値が大きい固有ベクトル（4.1）を示し、短いベクトルは固有値が小さいもの（0.02）を示しています。これらは直交ではないことに注意してください。ただし、LDAの数学は、これらの軸上の投影の相関がゼロであることを保証します。

$F=305$ $p=10^{-53}$ $p=10^{-5}$

$\mathbf{W}^{-1}\mathbf{B}$ $B/W$ $F=B/W \cdot (N-k)/(k-1) = 4.1\cdot 147/2 = 305$ $N=150$ $k=3$

$\lambda_1=4.1$ $\lambda_2=0.02$ $p=10^{-55}$

$F$ $(8,4)$

フィッシャーアイリスLDA変更

$p=10^{-55}$ $p=0.26$ $p=10^{-54}$ $\sim 5$ $p\approx0.05$ $p$

機械学習としてのMANOVA対LDA対統計

これは、機械学習コミュニティと統計コミュニティが異なるアプローチをどのように行っているかの典型的な例の1つに思えます。機械学習に関するすべての教科書はLDAをカバーし、素敵な写真などを示していますが、MANOVAについては決して言及しません（例：Bishop、Hastie、Murphy）。おそらく、人々はLDA 分類の精度（おおよそエフェクトサイズに対応）に関心があり、グループの違いの統計的有意性には関心がないためです。一方、多変量解析の教科書では、MANOVA ad nauseamについて説明し、多くの表形式データ（arrrgh）を提供しますが、LDAについてはめったに言及せず、プロットを表示することさえまれです（例：アンダーソン、またはハリス。ただし、Rencher＆Christensenは行い、Huberty＆Olejnikは「MANOVAおよび判別分析」とも呼ばれます）。

階乗MANOVA

階乗MANOVAははるかに混乱しますが、「階乗LDA」は実際には存在せず、階乗MANOVAは「通常のLDA」に直接対応しないという意味でLDAとは異なるため、検討するのは興味深いです。

$3\cdot 2=6$

階乗MANOVA

この図では、6つの「セル」（「グループ」または「クラス」とも呼びます）はすべて分離されていますが、実際にはほとんどありません。ここで両方の要因の重要な主な効果と重要な相互作用効果があることは明らかであることに注意してください（右上のグループが右に移動するため、「グリッド」位置に移動した場合、相互作用効果）。

この場合、MANOVA計算はどのように機能しますか？

$\mathbf W$ $\mathbf B_A$ $\mathbf B_A$ $\mathbf W^{-1} \mathbf B_A$

$\mathbf B_B$ $\mathbf B_{AB}$

T = B_{A} + B_{B} + B_{A B} + W 。

$\mathbf T = \mathbf B_A + \mathbf B_B + \mathbf B_{AB} + \mathbf W.$ $\mathbf B$ 因子はもう直交していないため、3つの因子寄与の合計に一意に分解することはできません。これは、ANOVAのタイプI / II / III SSの議論に似ています。]

$\mathbf B_A$ $\mathbf W_A=\mathbf T - \mathbf B_A$

$\mathbf W^{-1} \mathbf B_A$

— アメーバはモニカを復活させると言う
ソース

+1、それは素晴らしい説明でした。に変更B^-1 WしましたW^-1 B。軸として判別式を使用したあなたの写真は、私自身のプロットに似ています ;あなたは同じ「正規化された固有ベクトルによる非直交回転」アプローチを使用したと思います。

— ttnphns 14年

私は少しかすんで

MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive

いるのを見つけました。もちろん、MANOVAはLDAを行っていることを知りません。MANOVAは2次元検定であるため、ANOVAよりもdfを消費するだけです。そのため、p値のパワーは-55ではなく-54になります。

— ttnphns 14年

p値の観点から話すべきだとは思わない。代わりに、MANOVAがW^-1 BLDA と同じマトリックスを分析するキーポイント。LDAは、潜在変数（判別式）を構成します。MANOVAはサポートしていません。ただし、上記のマトリックスをより包括的に調査し、さまざまな統計（Pillaiのトレース、Hottelingのトレースなど）を計算して、それらに基づいてテストを行います。

— ttnphns 14年

LDA（2番目の写真）とは対照的に、MANOVAのメタファー（および答えに追加したいと思うかもしれません）となるプロットは、3つの重心が破線でグランド重心に接続されるプロットです。。

— ttnphns 14年

最後に、統計と機械学習の差がそれほど大きいとは思いません。machine learning初めて言葉を聞く前に、統計データ分析を学びました。そして、私が読んだテキストは、MANOVAとともにLDAについてかなり議論しました。

— ttnphns 14年