PCAでは、次元数がサンプル数よりも大きい(または等しい)場合、最大で非ゼロの固有ベクトルを持つことになります。つまり、次元間の共分散行列のランクはです。
例:サンプルはベクトル化された画像で、寸法はですが、画像しかありません。
5
2Dまたは3Dでポイントを想像してください。これらの点が占める多様体の次元は何ですか?答えはです。2つのポイントは常に線上にあります(線は1次元です)。空間の正確な次元は重要ではありません(より大きい限り)。ポイントは1次元の部分空間のみを占有します。そのため、分散はこの部分空間で、つまり1次元に沿ってのみ「広がり」ます。これは、すべての当てはまります。
—
アメーバは、モニカを復活させる14
@amoebaのコメントに精度を追加します。原点も重要です。したがって、N = 2 +原点がある場合、次元数は最大2(1ではありません)になります。ただし、PCAでは通常、データを中央に配置します。つまり、データクラウドのスペース内にオリジンを配置します。つまり、1つの次元が消費され、答えはamoebaが示すように「N-1」になります。
—
ttnphns 14年
これは私を混乱させるものです。次元を破壊するのは、センタリング自体ではありませんよね?正確にN個のサンプルとN次元がある場合、センタリングした後でもN個の固有ベクトルが残っています。
—
GrokingPCA 14年
どうして?1つの次元を破壊するのはセンタリングです。(算術平均による)センタリングは、原点を「外側」からデータが「広がる」空間に「移動」させます。N = 2の例では。2点+原点は通常、平面に広がります。このデータを中央に配置するとき、2つのポイントの中間にある直線に原点を置きます。そのため、データは行のみになります。
—
ttnphns 14年
ユークリッドはすでに2300年前にこれを知っていました。2つの点が線を決定し、3つの点が平面を決定します。一般化すると、点は次元のユークリッド空間を決定します。
—
whuber