共分散行列からの「分散」の尺度?


16

データが1dの場合、分散はデータポイントが互いに異なる程度を示します。データが多次元の場合、共分散行列を取得します。

多次元データの場合、一般にデータポイントが互いにどのように異なるかを示す単一の指標はありますか?

すでに多くの解決策があるかもしれないと感じていますが、それらを検索するために使用する正しい用語がわかりません。

共分散行列の固有値を足し合わせるようなことができるかもしれませんが、それは理にかなっていますか?


2
共分散行列の決定要因。より具体的な回答をすぐに投稿します。
user603

5
トレースは非常に頻繁に使用されます。たとえば、PCAでは、各成分によって説明される分散の割合は、共分散行列のトレースとして定義される「合計分散」の割合です。@ user603あなたの答えを楽しみにしています。
アメーバは、モニカを復活させる

2
adding up the eigenvalues of the covariance matrix上記のトレースアメーバに等しい。
ttnphns

メジャーは何に使用されますか?
HelloGoodbye

@HelloGoodbyeこんにちは、実際にはラベル付きの[ノイズの多い]データがいくつかあります。同じカテゴリ内の[true]データポイントはそれほど違わないように事前に想定しています。各カテゴリ内のデータのノイズの程度を把握できるように、各カテゴリ内のデータポイントの相違の度合いを測定する方法を探しています。
dontloo

回答:


15

(以下の答えは、[0]で証明された定理を単に紹介し、述べています。その論文の美しさは、ほとんどの議論が基本的な線形代数に関して作られていることです。この質問に答えるには、主な結果を述べるだけで十分ですが、必ず、元のソースを確認してください)。

データの多変量パターンによって記述することができる任意の状況でk変量楕円分布、統計的推論は、定義により、フィッティング(及び特徴付ける)の問題を低減するk変量の位置ベクトル(例えばθ)およびkによってのk対称半正定行列(たとえばΣ)をデータに。多くの場合、分解するよりも分かりやすい理由から、私は、以下の説明(しかし、あなたはすでに前提として想定している)Σ形状部品(と同じサイズのSPSDマトリックスにΣあなたの多変量分布の密度輪郭の形状を占めます)スカラーσS これらの輪郭のスケールを表現します。

一変量データ(にk=1)、Σの形状成分を、以下の議論から続くように、データの共分散行列は、スカラーであり、Σその結果1であるΣそのスケール成分等しいΣ=σS常にとあいまいさはありません。

多変量データでは、スケーリング機能の多くの選択肢σS可能です。特にワン()鍵となる望ましい適切性を持つことで際立っている。これにより、楕円ファミリのコンテキストでのスケーリング係数の優先選択になります。σS=|ΣΣ|1/k


MV統計の多くの問題には、R k × kの function(al)対称半正定値として定義され、以下を満足する散布行列の推定が含まれます 。ΣRk×k

(非特異行列の Aとベクトル B)。たとえば、共分散の古典的な推定値は(0)を満たしますが、決して唯一のものではありません。

(0)Σ(AX+b)=AΣ(X)A
Ab

すべての密度等高線が同じ形状行列で定義された楕円であり、スカラーによる乗算までの楕円分布データが存在する場合、次の形式のの正規化バージョンを考慮するのが自然です。Σ

VS=Σ/S(Σ)

ここで、は次の条件を満たす1固有関数です。S

(1)S(λΣ)=λS(Σ)

すべての。次いで、V Sは、形状(ショート状マトリックス中の)散乱行列の成分と呼ばれるσ S = S 1 / 2Σは散乱行列のスケール成分と呼ばれます。損失関数が形状成分V Sを介してΣのみに依存する多変量推定問題の例には、球形度、PCA、CCAなどのテストが含まれます。λ>0VSσS=S1/2(Σ)ΣVS

もちろん、多くの可能なスケーリング関数があるので、正規化関数いくつかの選択の(ある場合)が何らかの意味で最適であるという問題は未解決のままです。例えば:S

  • (たとえば、OPの質問の下のコメントで@amoebaが提案したもの。[1]、[2]、[3]も参照)S=tr(Σ)/k
  • ([4]、[5]、[6]、[7]、[8])S=|Σ|1/k
  • (共分散行列の最初のエントリ)Σ11
  • (の最初の固有値 Σλ1(Σ)Σ

ただし、は、局所的に漸近的に正常なファミリーのスケールと形状の対応する推定値のフィッシャー情報行列がブロック対角である唯一のスケーリング関数です(つまり、推定問題のスケールと形状の成分は漸近的に直交します)[0 ]。これは、とりわけ、スケール汎関数S = | Σ | 1 / kは唯一の選択肢であるSの非仕様れるσ Sは上で推論を行う際、効率の損失が生じないV SS=|Σ|1/kS=|Σ|1/kSσSVS

(1)を満たす多くの可能な選択肢のいずれについても、比較的強力な最適性の特性化については知りません。S

  • [0] Paindaveine、D。、形状の標準的な定義、Statistics&Probability Letters、Volume 78、Issue 14、2008年10月1日、2240-2247ページ。ゲートなしのリンク
  • [1] Dumbgen、L.(1998)。タイラーの高次元の散乱のM関数について、アン。研究所 統計学者。数学。50、471–491。
  • [2] Ollila、E.、TP Hettmansperger、およびH. Oja(2004)。アフィン同変多変量符号法。プレバス、ユバスキュラ大学。
  • [3] DE、タイラー(1983)。散布マトリックスの堅牢性と効率特性、Biometrika 70、411–420。
  • [4] Dumbgen、L.、およびDE Tyler(2005)。いくつかの多変量M-Functional、Scandのブレークダウンプロパティについて。J.スタティスト。32、247–264。
  • [5] Hallin、M.およびD. Paindaveine(2008)。散布の均一性に対する最適なランクベースのテスト、Ann。統計。、表示されます。
  • [6] Salibian-Barrera、M.、S。Van Aelst、およびG. Willems(200 6)。高速で堅牢なブートストラップを備えた多変量MM推定器に基づく主成分分析、J。Amer。統計学者。連合 101、1198–1211。
  • [7] Taskinen、S.、C。Croux、A。Kankainen、E。Ollila、およびH. O ja(2006)。分散行列と形状行列に基づく正準相関とベクトル推定の影響関数と効率、J。Multivariate Anal。97、359–384。
  • [8] Tatsuoka、KS、およびDE Tyler(2000)。非楕円分布の下でのS-FunctionalsとM-functionalsの一意性について 統計学者。28、1219–1243。

1
また、、それが回転不変ではないので...規模コンポーネントの奇妙な選択であるΣ11
アメーバは回復モニカ言う

慎重に答えてくれてありがとう!しかし、それを完全に理解するには時間がかかります:)
dontloo

@amoeba:Xに適用ΣXをドロップしますXX 混乱の可能性がないため、残りの答えは Xです。私はそれが少し不器用であることに同意するので、私は今 Σ XXX。2番目のコメントに同意します。同じtockenによって λ 1Σ 再スケーリングに対して不変ではありません。この意味で、 Sに課される均一性の制約は非常に低いバーです。Σ(XX)λ1(Σ)S
user603

待つ; スケールコンポーネントが再スケーリングに対して不変であることを望むまたは期待するのはなぜですか?
アメーバは、モニカを復活させる

λ1(Σ)

10

スカラー変数の分散は、変数の平均からの偏差の二乗として定義されます。

Var(X)=E[(XE[X])2]

一つの一般化ベクトル値確率変数に対するスカラー値の分散には、AS偏差を解釈することによって得ることができるユークリッド距離

Vars(X)=E[XE[X]22]

This expression can be rewritten as

Vars(X)=E[(XE[X])(XE[X])]=E[i=1n(XiE[Xi])2]=i=1nE[(XiE[Xi])2]=i=1nVar(Xi)=i=1nCii

where C is the covariance matrix. Finally, this can be simplified to

Vars(X)=tr(C)

which is the trace of the covariance matrix.


4

Although the trace of the covariance matrix, tr(C), gives you a measure of the total variance, it does not take into account the correlation between variables.

If you need a measure of overall variance which is large when your variables are independent from each other and is very small when the variables are highly correlated, you can use the determinant of the covariance matrix, |C|.

Please see this article for a better clarification.


4

If you need just one number, then I suggest a largest eigen value of a covariance matrix. This is also an explained variance of the first principal component in PCA. It tells you how much total variance can be explained if you reduce the dimensionality of your vector to one. See this answer on math SE.

The idea's that you collapse your vector into just one dimension by combining all variables linearly into one series. You end up with 1d problem.

The explained variance can be reported in % terms to the total variance. In this case you'll see immediately if there is a lot of linear correlation between series. In some applications this number can be 80% and higher, e.g. interest rate curve modeling in finance. It means that you can construct a linear combination of variables that explains 80 of variance of all variables.


3

The entropy concept from information theory seems to suit the purpose, as a measure of unpredictability of information content, which is given by

H(X)=p(x)logp(x)dx.

If we assume a multivariate Gaussian distribution for p(x) with mean μ and covariance Σ derived from the data, according to wikipedia, the differential entropy is then,

H(X)=12log((2πe)ndet(Σ))
where n is the number of dimensions. Since multivariate Gaussian is the distribution that maximizes the differential entropy for given covariance, this formula gives an entropy upper bound for an unknown distribution with a given variance.

And it depends on the determinant of the covariance matrix, as @user603 suggests.


This answer doesn't seem to be in the same spirit as the question. Covariances and variances are properties of any distribution (although they might be infinite or undefined in some cases), whereas this answer focuses on an exceedingly special case of a multivariate Normal distribution. It therefore doesn't apply to most of the situations implicitly envisioned in the question. Could you perhaps elaborate on the sense in which your answer could be construed as providing some useful guidance in the general case where the data aren't necessarily Normal?
whuber

@whuber thanks for the suggestion i guess maybe i should rewrite Gaussian as "the distribution that maximizes the entropy given a variance"? then the result will become some upper bound. what do you think?
dontloo

That sounds like it's going somewhere useful and more general.
whuber

1
I guess there are many ways to skin a cat;). I actually thing the link between your answer and mine are very strong. I have a minor quibble; I think the determinant has some optimality property for the problem you try to solve (and need not just be chosen on grounds of familiarity) and I think these optimality properties extend beyond covariance matrices (they hold for the determinant of whatever scatter functional you happen to chose and there are many out there) and extend beyond the Gaussian distribution (to the whole elliptical family).
user603
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.