判別式を散布図の線としてプロットする


8

データ散布図が与えられると、主成分スコアである点で並べられた軸としてデータの主成分をプロットできます。雲(2つのクラスターからなる)とその最初の主成分のプロット例を見ることができます。簡単に描くことができます。生のコンポーネントスコアは、データマトリックスx固有ベクトルとして計算されます。元の軸(V1またはV2)上の各スコアポイントの座標は、スコアx cos-between-the-axis-and-the-component(固有ベクトルの要素)です。

スコアで並べられた第1主成分

私の質問:なんとかして同様の方法で判別式を描くことは可能ですか?私の写真を見てください。次に、2つのクラスター間の判別を、判別スコア(判別分析後)をポイントとして並べた線としてプロットします。はいの場合、アルゴは何でしょうか?

回答:


8

わかりました。だれも答えなかったので、実験をすれば自分でできると思います。判別分析ガイドラインに従って、Tを(クラウドの中心からの偏差の)クラウド全体(データX、2つの変数)のsscp行列とし、Wを(クラスターの中心からの偏差の)プールされたクラスター内のsscp行列とします。B = TWは、クラスター間のsscpマトリックスです。inv(W)Bの特異値分解によりU(左固有ベクトル)、S(固有値の対角行列)、Vが得られます。(右の固有ベクトル)。2つのクラスターの私の例では、最初の固有値のみが非ゼロである(つまり、判別式が1つしかない)ため、Uの最初の固有ベクトル(列)のみを使用します:U(1)。現在、XU(1)は求められている生の判別スコアです。判別式をそれらを並べた線として表示するには、スコアをcos-between-the-axis-the-discriminant(これは固有ベクトルU(1)の要素です)を乗算します-上記の主成分で行ったように。結果のプロットは次のとおりです。

ここに画像の説明を入力してください


1
これを投影法と考える方が簡単かもしれません:U(1)どちらの場合も(PCAまたはLDA)は、データを投影する方向(第1主軸または最初の「判別軸」)の単位ベクトルです。直交プロジェクタがされて与えられたことにより、PU=UU。だから答えはXUU(もちろん、これはまさにあなたが自分で見つけたものです)。同じ式がより高い次元でも機能します。
アメーバ2014年

@amoebaさん、コメントありがとうございます。一般的な(任意の次元の)式はXVです。Vは、LDA抽出の固有ベクトルの列正規化(SS = 1への)行列です。ここに表示する虹彩データのこれらの正規化された固有ベクトル:stats.stackexchange.com/a/83114/3277 ; LDAの代数はここにあります:stats.stackexchange.com/a/48859/3277。LDAの正規化された固有ベクトルを使用したプロットは次のとおりです:stats.stackexchange.com/a/22889/3277
ttnphns 2014年

はい、確かに XV 低次元のターゲット空間のデータポイントの座標ですが、元の高次元空間(つまり、このスレッドの散布図の緑の点)での投影のイメージを取得する場合は、これらのポイントを投影します。と V+なので、最終的には XVV+。以前のコメントを間違えました。XVV の時だけ VPCAの場合と同様に、正規直交列があります(LDAではありません)。もちろん、1つの軸のみを考慮する場合(そしてV列が1つしかない場合)、それは問題ではありません。
アメーバ2014年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.