非正定共分散行列はデータについて何を教えてくれますか?


21

多くの多変量観測値があり、すべての変数の確率密度を評価したいと思います。データは正規分布していると想定されます。変数の数が少ない場合、すべてが期待どおりに機能しますが、より大きな数に移動すると、共分散行列が非正定値になります。

Matlabの問題を次のように減らしました:

load raw_data.mat; % matrix number-of-values x number of variables
Sigma = cov(data);
[R,err] = cholcov(Sigma, 0); % Test for pos-def done in mvnpdf.

err> 0の場合、シグマは正定ではありません。

より高い次元で実験データを評価するためにできることはありますか?それは私のデータについて有用なことを教えてくれますか?

私はこの分野の初心者ですが、明らかな何かを見逃してしまった場合はおologiesびします。


高次元の表現にはデータがまばらすぎるようです。このデータを使用して回帰モデルを実行する予定ですか?
ジョナサンティーレ

回答:


30

共分散行列は特異であるため、正定値ではありません。つまり、少なくとも1つの変数を他の変数の線形結合として表現できます。少なくとも1つの変数の値は他の変数のサブセットから決定できるため、すべての変数が必要なわけではありません。変数を順番に追加し、各ステップで共分散行列を確認することをお勧めします。新しい変数が特異点を作成する場合、それをドロップして次の変数に進みます。最終的に、正定共分散行列を持つ変数のサブセットが必要になります。


19
+1。また、すべての共分散行列が正定行列であり、すべての正定行列がいくつかの多変量分布の共分散行列であることにも注意してください。したがって、「非正定共分散行列」と言うのはちょっとした矛盾です。OPは、サンプル共分散行列が特異であることを本当に言っていたようです。これは、正確な共線性(前述)から、または観測数が変数数より少ない場合に発生する可能性があります
マクロ

3
一部の統計ソフトウェアは、この問題を自動的に修正するように誘導できます。たとえば、Stataのregressコマンドは、一部の変数が同一線上にある場合、追加の変数を自動的に削除します(その出力は、これらの変数を識別し、将来の使用のために非共線サブセットをマークする形式で保存できます)ただし、複雑になる可能性があるのは、変数が必ずしも共線的であるとは限らないことですが、コレスキー分解での浮動小数点誤差の伝播により負の固有値推定が生成されるため、変数はすべての実用的な目的で共線性になる可能性があります。
whuber

1
@whuber、同様の機能Rもあります-回帰モデルは、正確な共線性がある場合、線形予測子から変数を自動的に削除します。
マクロ

2
@whuber、それは少しハックですが、同様のトリックを行うことができます。gが線形モデルの場合colnames(model.matrix(g))[-which(is.na(coef(g))==TRUE)][-1]、モデルに入力された正確に共線ではない予測子の名前を返す必要があります。これは、どの係数が変数であるNARを確認し(変数が削除されたことを示す方法)、モデルマトリックスの対応する列名を見つける(切片列を削除する)ことで機能します。ちなみに、同一線上の用語がない場合は機能しないため、which(is.na(coef(g))==TRUE)空でないことを確認するifステートメントが必要です:)
マクロ

8
@Macroすべての共分散行列は正の半正定です。行列が正定であるすべてのベクトルxでx'Ax> 0であるため、それらが特異である場合、正定ではありません。特異な場合、xに対してx'Ax = 0が発生します。
マイケルR.チェルニック

0

有効な結果です。共分散行列のそのコンポーネントの推定値はゼロです。これは非常に正しい可能性があります。計算が困難になる可能性がありますが、Rの一部のアルゴリズム(Matlabについては知りません)はこれを処理できます。なぜ人々がこれに腹を立て、よりpar約的なモデルの適合を主張するのか理解できません。


-1

上記で対処できないと思う点の1つは、変数が完全に線形に関連していない場合でも、経験データから非正定共分散行列を計算できることです。十分なデータがない場合(特に、ペアワイズ比較の束から高次元の共分散行列を構築しようとしている場合)、またはデータが多変量正規分布に従っていない場合、逆説的な関係になりますcov(A、B)> 0などの変数間; cov(A、C)> 0; cov(B、C)<0。

このような場合、これらの基準を満たす多変量正規分布がないため、多変量正規PDFに適合できません。cov(A、B)> 0およびcov(A、C)> 0は、cov(B、C )> 0。

これはすべて、非正定行列が必ずしも共線変数を含むことを意味するわけではありません。また、選択したパラメトリック構造では不可能な関係をモデル化しようとしていることを示唆する場合もあります。


1
あなたの答えは非常に多くのレベルで間違っています。とにかく、対角線に1、cov(1番目と2番目の成分)に1/2、cov(1番目と3番目の成分)に1/2、cov(2番目と3 d成分)に-1/2の共分散行列を考えます。共分散行列の固有値は約0.15、1.35、1.50であり、2番目の段落のアサーションの反例を示しています。
マークL.ストーン

@ MarkL.Stone、あなたは2番目の段落については正しいですが、これのいくつかはあいまいで、寛大な解釈の下で保存できるのだろうかと思います。例えば、パラグラフ1で、「十分なデータを持っていない...大量のペアワイズ比較から高次元共分散行列を構築しようとしている」とは、多くの欠損データを持ち、ペアワイズ完全な観測値を使用することを意味するのでしょうか?共分散行列の各要素を計算します。
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.