共分散行列、相関行列、および/またはそれらの逆行列の行列式には、有用な解釈がありますか?


9

数年前にVBとT-SQLで共分散行列と相関行列、およびそれらの逆行列を計算する方法を学びながら、さまざまなエントリに、適切なデータマイニングシナリオで役立つような興味深いプロパティがあることを知りました。1つの明白な例は、共分散行列の対角線上の分散の存在です。私がまだ使用していないが、ある時点で役立つ可能性のあるいくつかのそれほど明白ではない例は、逆相関行列の分散インフレ係数と逆共分散行列の部分相関です。

ただし、文献で直接取り上げられていないのは、これらの行列の行列式を解釈する方法です。行列式は他の種類の行列に対しても頻繁に計算されるため、行列に関する多くの情報が見つかると予想していましたが、StackExchangeフォーラムと他のインターネットの両方のカジュアルな検索ではほとんど結果を出せませんでした。私が遭遇したほとんどの言及は、主成分分析(PCA)やホテリングの検定など、他の統計検定やアルゴリズムを計算するプロセスの単一ステップとして行列式を使用することに関係しています。単独でこれらの決定要因を解釈する方法に直接対処するものはありません。それらがデータマイニングに関する文献で頻繁に議論されない実際的な理由はありますか?さらに重要なことには、それらは、スタンドアロンの方法で有用な情報を提供しますか?その場合、それぞれの決定要因をどのように解釈できますか?私は行列式が線形変換によって誘発される符号付きボリュームの一種であることを理解しているので、これらの特定の行列式の行列式は、セット全体にわたる共分散や相関などのある種の体積測定を意味するのではないかと疑います( 2つの属性または変数間の通常の共分散および相関とは対照的に)。それはまた、それらの逆がどのようなボリュームを表すかという疑問を投げかけます。私はこのトピックや、さらに推測するのに必要な重い行列の計算についてはあまり詳しくありませんが、4種類すべての行列とその行列式をコーディングすることができます。私の質問は迫っていません、しかし、長期的には、これらのマトリックスとその決定要因を探索的データマイニングプロセスに定期的に含めることの価値があるかどうかを判断する必要があります。これらの特定の言語では、1対1の2変量の方法で共分散と相関を計算する方が安くなりますが、費用を正当化するより深い洞察を導き出すことができれば、余計なことをせずに行列式計算を実装します。プログラミングリソース。前もって感謝します。プログラミングリソースの観点から費用を正当化するより深い洞察を引き出すことができる場合は、さらに一歩進んで行列式計算を実装します。前もって感謝します。プログラミングリソースの観点から費用を正当化するより深い洞察を引き出すことができる場合は、さらに一歩進んで行列式計算を実装します。前もって感謝します。


通常の共分散または相関によって何を理解しますか?
Subhash C. Davar 2017年

回答:


10

私は、いくつかの一般的な原則、ユースケース、およびこれらのマトリックスの特性を、一連の厄介なソースからまとめることができました。それらのいくつかは直接これらのトピックを扱っており、ほとんどが単に言及されているだけです。行列式は符号付きボリュームを表すので、これらの4種類の行列に関連するものは、ある種の多次元関連測定に変換されると予想しました。これはある程度正しいことがわかりましたが、そのうちのいくつかは興味深い特性を示しています。

共分散行列:

•ガウス分布の場合、行列式は間接的に微分エントロピーを測定します。微分エントロピーは、マトリックスのボリューム全体にわたるデータポイントの分散として解釈できます。共分散行列の行列式は何を与えるので tmpの答えを参照してください?詳細については。

•同じスレッドでのAlexander Vigodnerの回答は、陽性の性質も持っていると述べています。

•共分散行列の行列式は、一般化された分散として解釈できます。NIST Statistics Handbookページ6.5.3.2を参照してください行列式と固有構造

逆共分散行列:

•これは、共分散行列行列式が表す一般化分散の逆に相当します。逆共分散行列の行列式を最大化することは、明らかに、フィッシャー情報行列の行列式を計算する代わりに使用でき、実験計画の最適化に使用できます。CVスレッドのフィッシャー情報の決定要因に対するkjetil b halvorsenの回答を参照してください

相関行列:

•これらは、行列式が1に近づくと相関ボリュームが減少し、後者が0に近づくと増加するという点で、共分散行列行列式よりもはるかに興味深いものです。「相関行列の行列式は、すべての相関が0の場合にのみ1.0になります。それ以外の場合、行列式は1未満になります。行列式は、標準スコアで表されるデータポイントのスウォームが占めるスペースのボリュームに関連することに注意してください。関係するメジャー。メジャーが相関していない場合、このスペースは体積が1の球体です。メジャーが相関している場合、占有されるスペースは、ボリュームが1未満の楕円体になります。見るこの一連のTulaneコースノートこのQuoraページ

•この予期しない動作の別の引用:「相関行列の行列式は、一部の変数が互いに完全に相関または高度に相関している場合、ゼロまたはほぼゼロになります。」Rakesh Pandeyの質問を参照してください。SPSSを使用して信頼性を計算する際のゼロに近い行列式の問題をどのように処理しますか?

•3番目のリファレンス:「det(R)が非常に小さいということは、ほぼ線形に依存するいくつかの変数があることだけを意味します。」このCrossValidatedスレッドでのCarlos Massera Filhoの回答

•行列式も0から1のスケールに従います。これは、相関係数が従う-1から1のスケールとは異なります。また、ボリュームの向きを表現する際に通常の行列式が示す可能性があるという兆候もありません。相関行列式がまだ方向性の概念を表しているかどうかは、私が見つけたどの文献でも取り上げられていません。

逆相関行列:

•用語「逆相関行列」と「行列式」を組み合わせたGoogle検索では50ヒットしか得られなかったため、統計的推論に一般的に適用されていないようです。

•アダプティブフィルターを使用したエコーキャンセレーションに関する特許があり、それを行うために設計された正則化手順が含まれている場合、逆相関行列式の最小化は状況によっては有用である可能性があります。を参照してください。この特許文書の 5 。

•p。Telman Alievによる信号処理の干渉分析(Googleブックスのプレビューで利用可能)を備えた堅牢なテクノロジーの5は、相関行列の「不十分な規定」が逆相関行列の行列式の不安定性に関連していることを示唆しているようです。言い換えると、その構成要素の小さな変化に比例する行列式の急激な変化は、相関行列によって取得される情報量に関連しています。

ここにリストされていないこれらの決定要因の他のプロパティとユースケースがあるかもしれません。他の誰かがこれらの解釈の実用的な使用に遭遇した場合に備えて、完全を期すため、および私が提起した質問への回答を提供するために、これらを投稿します(相関関係の決定要因に関して)。


より適格な誰かが来て、より良いものを提供してくれることを期待して、私は自分の答えを受け入れるまでもうしばらく待ちます。
SQLServerSteve 2017年

3
いい答えだ!決定要因は「多様性の事前」で使用できることを追加します。つまり、潜在変数モデルが、複数の潜在変数が同一であるひどいローカルオプティマに崩壊しないように促します。たとえば、次のように papers.nips.cc/paper/...
eric_kernfeld

感謝:)多分私はその論文を読んだ後、(もちろんクレジット付きで)回答にあなたのコメントを追加する必要がありますか?私はベイジアンプライオリティーズを利用していないので、ダイジェストに時間がかかる場合があります。
SQLServerSteve 2017年

私は自分の回答を受け入れましたが、より良い回答が投稿された場​​合は受け入れません。私はこれらの解釈についてさらに多くの意見を求めています。
SQLServerSteve
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.