サンプルの次元がベクトル空間の次元よりも小さい場合、特異行列が発生する可能性があります。サンプル数がよりも少ない場合(が次元数の場合)、この状況が必ず発生しますサンプルは最大で次元の超平面に広がります。このような小さなサンプルを考えると、直交空間の分散を計算することは明らかにできません。d+1dk+1d
これが、リテラルPCAを使用せず、代わりに特異値分解を実行するのが一般的な理由です。これは、行列の疑似逆行列を計算するために使用できます。行列が反転可能な場合、疑似逆行列は逆行列になります。
ただし、非可逆行列が表示されている場合、直交空間の分散がわからないため、ベクトルがクラスターを表す超平面の外にある場合、クラスターからの距離が無意味になる可能性があります(この分散は0です!)SVDは疑似逆行列を計算できますが、「分散」は依然としてデータによって決定されません。
この場合、おそらく最初にグローバルな次元削減を行っているはずです。サンプルサイズの増加は、実際に非冗長次元がある場合にのみ役立ちます分布からいくつのサンプルを描画しても、行列は常に反転不可能であり、偏差を判断することはできません。標準偏差(0)に対する。y=xx−y
さらに、共分散行列の計算方法によっては、壊滅的なキャンセルが原因で数値の問題が発生する場合があります。最も単純な回避策は、常に最初にデータを中央に配置し、平均をゼロにすることです。