現在、「ビジュアルデータ分析」の大学コースのプレゼンテーションを準備しています。そして、私のトピックの1つは「Star Coordinate」の視覚化です。スター座標
Star Coordinatesが高次元データの変換を実行し、よく知られているPCA技法もそれを実行するので、PCAをStar Coordinatesで模倣できるかどうか疑問に思いますか?元の変数の線形結合を表すように座標軸を並べ替えると思いますか?しかし、これは単なるアイデアです。誰かがこれを確認または反証できますか?
現在、「ビジュアルデータ分析」の大学コースのプレゼンテーションを準備しています。そして、私のトピックの1つは「Star Coordinate」の視覚化です。スター座標
Star Coordinatesが高次元データの変換を実行し、よく知られているPCA技法もそれを実行するので、PCAをStar Coordinatesで模倣できるかどうか疑問に思いますか?元の変数の線形結合を表すように座標軸を並べ替えると思いますか?しかし、これは単なるアイデアです。誰かがこれを確認または反証できますか?
回答:
PCAと「スター座標」は異なることを行います。 スター座標はすべての値を標準化するため、公平な比較ではPCAが(共分散行列ではなく)相関行列に適用されます。これは、値を標準化するもう1つの方法です。
PCAはデータの形状に合わせて調整された座標系を識別しますが、星の座標は元々データ内の特定の座標に基づいています。
これにより、データ間の関係を明らかにするためのPCAがはるかに柔軟になります。対照的に、「スター座標」は、単変量情報の2Dグラフィックにすぎません。
PCA(相関行列で実行される場合)は、原点のデータ平均とスケールの標準偏差を使用します。スター座標は、原点にはデータ最小値を使用し、スケールにはその範囲を使用します。
最小値と範囲は、標準偏差よりも遠方のデータにはるかに敏感であるため、星の座標は、汎用のデータ探索にはあまり適していません。
そのため、それぞれに長所があります。ただし、PCAに対する星の座標の特定の長所を理解することは困難です。
例として、これらの2つの3Dデータセットを考えます。それぞれが300個のポイントで構成されており、それぞれのポイントクラウドは非常に平坦な楕円形の「パンケーキ」の形をしています。(各相関行列の特異値は近いです。)図の上の行は相関行列を示し、2番目の行は擬似3Dでの点群のビューを示します(ほぼ最大の2つの主成分をキャプチャするため)、下の行は同じ点の「星の座標」の画像です。
元の座標軸に対するこれらの点群の向きが異なるため、スター座標のプロットは完全に異なります。これは特徴的です。スター座標は元の座標に関する情報を(非常に限定的に)提供し、PCAは座標間の関係を明らかにします。
また、スター座標は一種の「偶発的な」投影であることがわかります。左側のバージョンのように、データの大きな主成分をキャプチャすることもあれば、右側のように大小のコンポーネントをキャプチャすることもあります。 、およびその他の場合(図には示されていません)は、小さなコンポーネントのみをキャプチャします(すべてのポイントは、原点付近で密にクラスタ化され、ほとんど何も表示されません)。
mimic PCA by Star Coordinates
は、これまでのところ曖昧すぎて実際の問題を引き起こすことはできません(そのため、質問をすることができます)。最初にそれを試してみて、問題や疑いがある場合は質問することをお勧めします。