数年前にVBとT-SQLで共分散行列と相関行列、およびそれらの逆行列を計算する方法を学びながら、さまざまなエントリに、適切なデータマイニングシナリオで役立つような興味深いプロパティがあることを知りました。1つの明白な例は、共分散行列の対角線上の分散の存在です。私がまだ使用していないが、ある時点で役立つ可能性のあるいくつかのそれほど明白ではない例は、逆相関行列の分散インフレ係数と逆共分散行列の部分相関です。
ただし、文献で直接取り上げられていないのは、これらの行列の行列式を解釈する方法です。行列式は他の種類の行列に対しても頻繁に計算されるため、行列に関する多くの情報が見つかると予想していましたが、StackExchangeフォーラムと他のインターネットの両方のカジュアルな検索ではほとんど結果を出せませんでした。私が遭遇したほとんどの言及は、主成分分析(PCA)やホテリングの検定など、他の統計検定やアルゴリズムを計算するプロセスの単一ステップとして行列式を使用することに関係しています。単独でこれらの決定要因を解釈する方法に直接対処するものはありません。それらがデータマイニングに関する文献で頻繁に議論されない実際的な理由はありますか?さらに重要なことには、それらは、スタンドアロンの方法で有用な情報を提供しますか?その場合、それぞれの決定要因をどのように解釈できますか?私は行列式が線形変換によって誘発される符号付きボリュームの一種であることを理解しているので、これらの特定の行列式の行列式は、セット全体にわたる共分散や相関などのある種の体積測定を意味するのではないかと疑います( 2つの属性または変数間の通常の共分散および相関とは対照的に)。それはまた、それらの逆がどのようなボリュームを表すかという疑問を投げかけます。私はこのトピックや、さらに推測するのに必要な重い行列の計算についてはあまり詳しくありませんが、4種類すべての行列とその行列式をコーディングすることができます。私の質問は迫っていません、しかし、長期的には、これらのマトリックスとその決定要因を探索的データマイニングプロセスに定期的に含めることの価値があるかどうかを判断する必要があります。これらの特定の言語では、1対1の2変量の方法で共分散と相関を計算する方が安くなりますが、費用を正当化するより深い洞察を導き出すことができれば、余計なことをせずに行列式計算を実装します。プログラミングリソース。前もって感謝します。プログラミングリソースの観点から費用を正当化するより深い洞察を引き出すことができる場合は、さらに一歩進んで行列式計算を実装します。前もって感謝します。プログラミングリソースの観点から費用を正当化するより深い洞察を引き出すことができる場合は、さらに一歩進んで行列式計算を実装します。前もって感謝します。