特異行列とは何ですか?
正方行列は、比例関係にある行または列が含まれている場合、特異行列です。つまり、行列式はゼロです。言い換えれば、その行(列)の1つまたは複数は、その行(列)のすべてまたは一部の線形結合として正確に表現でき、その組み合わせには定数項はありません。
たとえば、3 × 3行列A対称行列(相関行列のような)、または非対称行列を想像してください。そのエントリの点であればその表示col3= 2.15 ⋅ COL1、例えば、その後、行列A特異です。場合、別の例として、その行2= 1.6 ⋅ 行1- 4 ⋅ 行3は、A再び特異です。特定のケースとして、いずれかの行にゼロのみが含まれる場合、列は他の列の線形結合であるため、行列も特異です。一般に、正方行列の行(列)が他の行(列)の加重和である場合、後者のいずれも他の行(列)の加重和でもあります。
特異行列またはほぼ特異行列は、多くの統計データ分析で問題を引き起こすため、「条件の悪い」行列と呼ばれることがよくあります。
どのデータが変数の特異相関行列を生成しますか?
相関行列または共分散行列を上記の特異行列にするために、どのような多変量データを表示する必要がありますか?変数間に線形相互依存関係がある場合です。一部の変数が他の変数の正確な線形結合であり、定数項が許可されている場合、変数の相関および共分散行列は特異です。そのような行列の列間で観察される依存関係は、変数が中央に置かれた後(平均が0になった)または標準化された(共分散行列ではなく相関を意味する場合)データの変数間の依存関係と同じ依存関係です。
変数の相関/共分散行列が特異な場合によくある特定の状況:(1)変数の数がケースの数以上である。(2)2つ以上の変数を合計すると定数になります。(3)2つの変数は同一であるか、平均(レベル)または分散(スケール)のみが異なります。
また、データセットで観測値を複製すると、行列が特異点に向かって進みます。ケースのクローンを作成する回数が増えるほど、特異性が近くなります。そのため、欠損値のある種の代入を行うとき、代入されたデータにノイズを追加することは(統計的および数学的な観点から)常に有益です。
幾何学的共線性としての特異性
幾何学的な観点では、特異性は(多重)共線性(または「共面性」)です。空間内のベクトル(矢印)として表示される変数は、変数の数よりも少ない次元の空間にあります。(その次元は行列のランクとして知られています;それは行列の非ゼロの固有値の数に等しいです。)
より遠い、または「超越的な」幾何学的見方では、特異点またはゼロ定値(ゼロ固有値の存在)は、行列の正定値と非正定値の間の屈曲点です。(ベクトル-変数のいくつかの場合にはある相関/共分散行列)でも減少ユークリッド空間に横たわる「を越えて行く」 -彼らは「に収束する」または「完全にまたがる」ことができないようにユークリッドもうスペースを、非正定性が表示されます。 、つまり、相関行列のいくつかの固有値が負になります。(ここでは非グラミアンとも呼ばれる非正定行列について参照してください。)非正定行列は、ある種の統計分析では「悪条件」です。
回帰における共線性:幾何学的な説明と意味
バツ1バツ2YY′eYY′b1b2
バツ1バツ2Y′e絵に描かれたその(1つの予測子)回帰の。共線性を取り除くために、変数をドロップする以外にも、他のアプローチがあります。
バツ1バツ2
バツ1バツ2バツ1バツ1バツ2同じ母集団からの異なるサンプルで非常に異なる平面Xが期待されます。平面Xが異なるため、予測、R平方、残差、係数などもすべて異なります。これは、飛行機Xが40度のどこかでスイングした写真でよく見られます。そのような状況では、推定値(係数、R 2乗など)は非常に信頼性が低く、その事実は巨大な標準誤差で表されます。対照的に、予測変数が共線性からほど遠い場合、予測変数の範囲はデータのサンプリング変動に対してロバストであるため、推定値は信頼できます。
行列全体の関数としての共線性
2つの変数間の高い相関であっても、それが1未満であれば、相関行列全体が必ずしも特異になるわけではありません。残りの相関にも依存します。たとえば、この相関行列:
1.000 .990 .200
.990 1.000 .100
.200 .100 1.000
.00950
多くの統計分析で適格と見なされるには、0とはまだ十分に異なる決定要因があります。しかし、このマトリックス:
1.000 .990 .239
.990 1.000 .100
.239 .100 1.000
行列式.00010
、次数が0に近い。
共線性診断:詳細情報
回帰などの統計データ分析には、分析から変数またはケースの一部を削除することを検討したり、他の治癒手段を実行したりするのに十分強い共線性を検出する特別なインデックスとツールが組み込まれています。「このサイトを含む」「共線性診断」、「多重共線性」、「特異性/共線性許容値」、「条件指標」、「分散分解比率」、「分散インフレーション係数(VIF)」を検索してください。