PCAに類似した非直交手法


9

2Dポイントデータセットがあり、データ内のすべての極大分散の方向を検出したいとします。次に例を示します。

ここに画像の説明を入力してください

PCAは直交分解であるため、この状況では役に立ちません。したがって、青色で示されている両方のラインを検出できません。その出力は、緑色のラインで示されているもののようになります。

この目的に適した手法を推奨します。ありがとう。


サンプルデータセットを利用できるようにできますか?何か試してみたいです。よろしく、エリック
エリックメルセ

回答:


10

独立成分分析は、優れたソリューションを提供できるはずです。測定結果が統計的に独立した変数の混合から生じると仮定することで、非直交成分(あなたの場合のように)を分解することができます。

インターネットには多くの優れたチュートリアルがあり、試用するためにいくつかの自由に利用できる実装を静かにしています(たとえばscikitまたはMDPで)。

ICAが機能しないのはいつですか?

他のアルゴリズムと同様に、ICAは、それが導き出された仮定が適用される場合に最適です。具体的には、

  1. ソースは統計的に独立しています
  2. 独立成分は非ガウスです
  3. 混合行列は反転可能です

ICAは、混合行列と独立成分の推定値を返します。

ソースがガウスの場合、ICAはコンポーネントを見つけることができません。2つの独立したコンポーネントとがあるとします。これらはです。次に、 x1x2N(0,I)

p(x1,x2)=p(x1)p(x2)=12πexp(x12+x222)=12πexp||x||22

どこ。2次元ベクトルのノルムです。これらが直交変換(たとえば、回転)と混合される場合、これは、回転の下で確率分布が変化しないことを意味します。したがって、ICAはデータから混合行列を見つけることができません。R | | R x | | = | | x | |||.||R||Rx||=||x||


ええ、そうすべきです(scikit-learn.org/stable/auto_examples/decomposition/…)、ありがとうございます。:D
アーメド2014年

1
これをもっと言えば、これは本当に深い答えになるかもしれません。特に、@ Gottfriedの提案(斜めローテーションのPCA)とあなたの提案(ICA)を比較することにします。この2つの違いと欠点は何ですか。
ttnphns 2014年

この質問は部分的に回答されているようです。ICAが適用されない簡単な例を追加して、編集内容を確認してください。
jpmuc 2014年

3

いわゆる「斜め」の場合には、PCAのような手順があります。SPSS(およびおそらくフリーウェアのクローン)のようなstat-softwareでPSPPは、 "oblique rotations"と同等に呼ばれ、それらのインスタンスは "oblimin"、 "promax"などの名前が付けられます。私が物事を正しく理解している場合、ソフトウェアは、直交ユークリッド空間の座標を(たとえば、画像に示されているように)再計算して、軸が非直交である空間の座標に再計算することにより、因子ローディングを「矩形化」しようとします。重回帰から知られているいくつかのテクニック。さらに、これは反復的にのみ機能し、モデルの統計的検定で1つ以上の自由度を消費すると思います。

比較PCAと傾斜回転
の比較傾斜回転のSPSSリファレンスマニュアル(IBMサイト)には、計算のための公式も含まれています。

[更新](申し訳ありませんが、PSPPが斜めタイプの「回転」を提供しないことを確認しました)


1
うーん、3回目に読んだ後、あなたの質問はoblique-rotation-rationaleとは少し異なります:データのクラウドでは、平均が原点にあることも、データが中央に配置されていないこともないため、私の回答でここで取り上げた以外のことを心に留めているかもしれません。この場合は、後で回答を削除できます...
Gottfried Helms 2014年

1
斜めの「回転」はPCAの後に続くため、質問に示されているような状況を「見る」ことができず、したがって、PCA自体よりも2つのコンポーネントを識別する能力がないように見えます。
whuber


2

他の回答では、検討可能な手法についていくつかの有用なヒントがすでに示されていますが、想定が間違っていることを指摘した人はいないようです。回路図の図で青で表示されている線は、分散の極大値ではありません。

これを確認するには、方向の分散がによって与えられていることに注意してください。ここで、は、データ。極大値を見つけるには、この式の導関数をゼロにする必要があります。、単位長さを有するように拘束され、我々は、用語を追加する必要がここでラグランジュ乗数です。微分すると、次の方程式が得られます:wのΣ wのΣ W λ WW - 1 λ Σ W - λ W = 0。wwΣwΣwλ(ww1)λ

Σwλw=0.

つまり、は共分散行列の固有ベクトル、つまり主ベクトルの1つでなければなりません。言い換えると、PCAはすべて極大値を提供し、他はありません。w


こんにちは、私は数学のバックグラウンドがあまりありません。あなたが上記で言及したことについて学ぶための良いリソースを私に勧めることができますか?ありがとう。
アーメド2014年

@Ahmed:わからない、それはあなたがすでに知っていることに依存します。線形代数と分析についてのきちんとした教科書が必要になると思います。これはかなり基本的なもので、まともな教科書でカバーする必要があります。
アメーバ2014年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.