どの相関関係が行列を特異にし、特異点またはほぼ特異点の意味は何ですか?


66

私はさまざまな行列(主にロジスティック回帰)でいくつかの計算を行っていますが、一般的に「行列は特異です」というエラーが表示されます。ここでの私の質問は、「高度な」相関行列とは何だと思いますか?この単語を表す相関のしきい値はありますか?変数が別の変数と相関している0.97のように、これは行列を特異にするのに十分な「高」ですか?

質問が非常に基本的なものである場合、おthisび申し上げますが、この問題について言及している参考資料を見つけることができませんでした(参考資料へのヒントは大きなプラスになります!)。


2
ヒント:サイトでVIFと相関を検索します。
whuber

間違いなく見てください。乾杯。
Error404

2
@ttnphnsが以下に優れた説明を提供しました(そこに驚きはありません。これは彼の専門のようです)。特異なデータマトリックスを取得できる状況の簡単な例については、定性的変数のコード化-回帰-リード-特異点への回答を読むと役立つ場合があります。
GUNG -モニカ元に戻し

確かに彼はやった!! 実際、混乱して読み物の時間を節約しました。あなたの例@gungに感謝します。とても助かりました。
Error404

回答:


100

特異行列とは何ですか?

正方行列は、比例関係にある行または列が含まれている場合、特異行列です。つまり、行列はゼロです。言い換えれば、その行(列)の1つまたは複数は、その行(列)のすべてまたは一部の線形結合として正確に表現でき、その組み合わせには定数項はありません。

たとえば、3×3行列A対称行列(相関行列のような)、または非対称行列を想像してください。そのエントリの点であればその表示col3=2.15col1、例えば、その後、行列A特異です。場合、別の例として、そのrow2=1.6row14row3は、A再び特異です。特定のケースとして、いずれかの行にゼロのみが含まれる場合、列は他の列の線形結合であるため、行列も特異です。一般に、正方行列の行(列)が他の行(列)の加重和である場合、後者のいずれも他の行(列)の加重和でもあります。

特異行列またはほぼ特異行列は、多くの統計データ分析で問題を引き起こすため、「条件の悪い」行列と呼ばれることがよくあります。

どのデータが変数の特異相関行列を生成しますか?

相関行列または共分散行列を上記の特異行列にするために、どのような多変量データを表示する必要がありますか?変数間に線形相互依存関係がある場合です。一部の変数が他の変数の正確な線形結合であり、定数項が許可されている場合、変数の相関および共分散行列は特異です。そのような行列の列間で観察される依存関係は、変数が中央に置かれた後(平均が0になった)または標準化された(共分散行列ではなく相関を意味する場合)データの変数間の依存関係と同じ依存関係です。

変数の相関/共分散行列が特異な場合によくある特定の状況:(1)変数の数がケースの数以上である。(2)2つ以上の変数を合計すると定数になります。(3)2つの変数は同一であるか、平均(レベル)または分散(スケール)のみが異なります。

また、データセットで観測値を複製すると、行列が特異点に向かって進みます。ケースのクローンを作成する回数が増えるほど、特異性が近くなります。そのため、欠損値のある種の代入を行うとき、代入されたデータにノイズを追加することは(統計的および数学的な観点から)常に有益です。

幾何学的共線性としての特異性

幾何学的な観点では、特異性は(多重)共線性(または「共面性」)です。空間内のベクトル(矢印)として表示される変数は、変数の数よりも少ない次元の空間にあります。(その次元は行列のランクとして知られています;それは行列の非ゼロの固有値の数に等しいです。)

より遠い、または「超越的な」幾何学的見方では、特異点またはゼロ定値(ゼロ固有値の存在)は、行列の正定値と非正定値の間の屈曲点です。(ベクトル-変数のいくつかの場合にはある相関/共分散行列)でも減少ユークリッド空間に横たわる「を越えて行く」 -彼らは「に収束する」または「完全にまたがる」ことができないようにユークリッドもうスペースを、非正定性が表示されます。 、つまり、相関行列のいくつかの固有値が負になります。(ここでは非グラミアンとも呼ばれる非正定行列について参照してください。)非正定行列は、ある種の統計分析では「悪条件」です。

回帰における共線性:幾何学的な説明と意味

X1X2YYeYYb1b2

ここに画像の説明を入力してください

X1X2Ye絵に描かれたその(1つの予測子)回帰の。共線性を取り除くために、変数をドロップする以外にも、他のアプローチがあります。

ここに画像の説明を入力してください

X1X2

ここに画像の説明を入力してください

X1X2X1X1X2同じ母集団からの異なるサンプルで非常に異なる平面Xが期待されます。平面Xが異なるため、予測、R平方、残差、係数などもすべて異なります。これは、飛行機Xが40度のどこかでスイングした写真でよく見られます。そのような状況では、推定値(係数、R 2乗など)は非常に信頼性が低く、その事実は巨大な標準誤差で表されます。対照的に、予測変数が共線性からほど遠い場合、予測変数の範囲はデータのサンプリング変動に対してロバストであるため、推定値は信頼できます。

行列全体の関数としての共線性

2つの変数間の高い相関であっても、それが1未満であれば、相関行列全体が必ずしも特異になるわけではありません。残りの相関にも依存します。たとえば、この相関行列:

1.000     .990     .200
 .990    1.000     .100
 .200     .100    1.000

.00950多くの統計分析で適格と見なされるには、0とはまだ十分に異なる決定要因があります。しかし、このマトリックス:

1.000     .990     .239
 .990    1.000     .100
 .239     .100    1.000

行列式.00010、次数が0に近い。

共線性診断:詳細情報

回帰などの統計データ分析には、分析から変数またはケースの一部を削除することを検討したり、他の治癒手段を実行したりするのに十分強い共線性を検出する特別なインデックスとツールが組み込まれています。「このサイトを含む」「共線性診断」、「多重共線性」、「特異性/共線性許容値」、「条件指標」、「分散分解比率」、「分散インフレーション係数(VIF)」を検索してください。


3
この詳細な説明をありがとう。これは、このトピックを理解しようとしている人にとって完璧な概要です。あなたが提案したタイトルについてもっと読みます。これは高く評価されています:)
Error404

3
途方もない説明、あなたが行った追加に再び感謝しなければなりません。確かに非常に有益です。
Error404

4
幾何学的な説明と関連する図は、この問題を理解するのに非常に役立ちます。
GUNG -モニカ元に戻し

1
これはかなり古い投稿です...しかし、@ ttnphnsでそれらの幾何学的なグラフィックスをどうしたか知りたいです...一方ではMSペイントでさえあったように見えますが、彼らはただですとても良い
ポール

@ポールが言ったこと!
abalter
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.