データ行列の直感的な解釈はありますか？

107

特定のデータ行列（列に変数があり、行にデータポイントがある）について、が統計において重要な役割を果たすようです。たとえば、それは通常の最小二乗法の分析解の重要な部分です。または、PCAの場合、その固有ベクトルはデータの主成分です。 $A$ $A^TA$

計算方法は理解していますが、このマトリックスが表すものの直感的な解釈があり、それがその重要な役割につながるかどうか疑問に思っていましたか？ $A^TA$

matrix covariance-matrix correlation-matrix

— アレック
ソース

2

stats.stackexchange.com/a/66295/919の分析により、いくつかの直感が得られる場合があります。

— whuberの

125

幾何学的には、行列はスカラー積の行列（=内積、=内積）と呼ばれます。代数的に、これは平方和とクロス積の行列（SSCP）と呼ばれます。 $\bf A'A$

その番目の対角要素はに等しく、ここでは番目の列の値を示し、は行全体のです。その中の番目の非対角要素はです。 $i$ $\sum a_{(i)}^2$ $a_{(i)}$ $i$ $\bf A$ $\sum$ $ij$ $\sum a_{(i)}a_{(j)}$

多くの重要な関連係数があり、それらの正方行列は角度類似性またはSSCPタイプ類似性と呼ばれます。

SSCPマトリックスを（サンプルサイズまたは行数）で、MSCP（平均二乗積）マトリックスが得られます。したがって、この関連性測度のペアワイズ式は（ベクトルとは列のペアです）。 $n$ $\bf A$ $\frac{\sum xy}{n}$ $x$ $y$ $\bf A$
列（変数）を中央に配置する場合、は散布（または厳密な場合は共散布）行列で、は共分散ですマトリックス。共分散のペアワイズ式は、とは中央の列を示します。 $\bf A$ $\bf A'A$ $\mathbf {A'A}/(n-1)$ $\frac{\sum c_xc_y}{n-1}$ $c_x$ $c_y$
列をz 標準化（列の平均を減算し、標準偏差で除算する）場合、はピアソン相関行列です。相関は標準化変数の共分散です。相関のペアワイズ式は、およびは標準化された列を示します。相関は線形係数とも呼ばれます。 $\bf A$ $\mathbf {A'A}/(n-1)$ $\frac{\sum z_xz_y}{n-1}$ $z_x$ $z_y$
列を単位スケーリング（SS、平方和を1にする）場合、はコサイン類似度行列です。したがって、同等のペアワイズ式は、およびはL2正規化列を示します。コサイン類似度は、比例係数とも呼ばれます。 $\bf A$ $\bf A'A$ $\sum u_xu_y = \frac{\sum{xy}}{\sqrt{\sum x^2}\sqrt{\sum y^2}}$ $u_x$ $u_y$
もしあれば中央、次に手段-前記スケールの列、次いで再びピアソンある相関関係が中心変数の余弦であるので、行列： $\bf A$ $\bf A'A$ $^{1,2}$ $\sum cu_xcu_y = \frac{\sum{c_xc_y}}{\sqrt{\sum c_x^2}\sqrt{\sum c_y^2}}$

これらの4つの主要な関連付けの測定、基づいて、それをする他のいくつかについても言及します。これらは、正規化とは異なる式（分母の分母）を採用しているため、コサイン類似性の代替手段と見なすことができます。 $\bf A'A$

同一性係数[Zegers＆ten Berge、1985]は、幾何平均ではなく算術平均の形式で分母を持ちます：。比較される列が同一である場合にのみ、1になります。 $\frac{\sum{xy}}{(\sum x^2+\sum y^2)/2}$ $\bf A$
このような別の使用可能な係数は、類似率と呼ばれます：。 $\frac{\sum{xy}}{\sum x^2 + \sum y^2 -\sum {xy}} = \frac{\sum{xy}}{\sum {xy} + \sum {(x-y)^2}}$
最後に、値が非負であり、列内の合計が1である場合（たとえば、比率である場合）、は忠実度またはBhattacharyya係数の行列です。 $\bf A$ $\bf \sqrt {A}'\sqrt A$

$^1$ 多くの統計パッケージで使用される相関行列または共分散行列を計算するつの方法は、データのセンタリングをバイパスし、この方法でSSCP行列から直接出発します。ましょうデータの列合計の行ベクトルであるながら、データの行数です。次に、（1）散布行列をとして計算します[、は共分散行列になります]。（2）対角線は、偏差の二乗和、行ベクトルです。（3）相関行列計算します。 $\bf A'A$ $\bf s$ $\bf A$ $n$ $\bf C = A'A-s's/ \it n$ $\mathbf C/(n-1)$ $\bf C$ $\bf d$ $\bf R=C/\sqrt{d'd}$

$^2$ 鋭いが統計的に初心者の読者は、相関の2つの定義-「共分散」（サンプルサイズによる平均化、df = "n-1" による除算を含む）と「コサイン」（そのような平均化はありません）。しかし、実際には、相関の最初の式では実際の平均化は行われません。事はその聖です。z標準化が達成された偏差は、同じdfによる除算で計算されていました。したがって、共分散としての相関の式の分母「n-1」は、式をラップ解除すると完全にキャンセルされます。式は、コサインの式に変わります。経験的な相関値を計算するには、を知る必要はありません。 $n$ （平均を計算する場合を除き、中心に）。

— ttnphns
ソース

42

マトリックスは、のすべての列のすべての内積が含まれます。したがって、対角線には、列の2乗ノルムが含まれます。の列にまたがる列空間へのジオメトリと正射影について考える場合、この空間にまたがるベクトルのノルムと内積が投影の計算で中心的な役割を果たすことを思い出してください。最小二乗回帰と主成分は、正射影の観点から理解できます。 $A^TA$ $A$ $A$

また、列の場合注意その後、このようにカラム空間の正規直交基底を形成し、正規直交である単位行列。 $A$ $A^TA = I$ $-$

— NRH
ソース

39

@NRHは良い技術的な答えを与えました。

本当に基本的なものが必要な場合は、をスカラーの相当する行列と考えることができます。 $A^TA$ $A^2$

— ピーター・フロム
ソース

5

他の答えはより「技術的に」正しいですが、これは最も直感的な答えです。

— CatsLoveJazz

3

のジオメトリの重要なビューはこれです（「線形代数とその応用」に関するStrangの本で強く強調されている視点）：Aが線形マップ表すランクkの行列であると仮定します。Col（A）とRow（A）を列スペースと行スペースとします。それから $A'A$ $m \times n$ $A: R^n \rightarrow R^m$ $A$

（a）実対称行列としては、非ゼロの固有値固有ベクトルの基底を。副<文>この[前述の事実の]結果として、それ故に、従って、だから◆【同】consequently; therefore <文>このような方法で、このようにして、こんなふうに、上に述べたように◆【同】in this manner <文>そのような程度まで<文> AひいてはB◆【用法】A and thus B <文>例えば◆【同】for example; as an example： $(A'A): R^n \rightarrow R^n$ $\{e_1,..., e_n\}$ $d_1,\ldots,d_k$

$(A'A)(x_1e_1 + \ldots + x_ne_n) = d_1x_1e_1 + ... + d_kx_ke_k$ 。

（b）Range（A）= Col（A）、Col（A）の定義による。したがって、A | Row（A）はRow（A）をCol（A）にマップします。

（c）Kernel（A）はRow（A）の直交補数です。これは、行列乗算がドット積（行i）*（列j）で定義されているためです。（つまり、 $Av'= 0 \iff \text{v is in Kernel(A)} \iff v \text{is in orthogonal complement of Row(A)}$

（d）およびは同型です。 $A(R^n)=A(\text{Row}(A))$ $A|\text{Row(A)}:\text{Row(A)} \rightarrow Col(A)$

Reason: If v = r+k (r \in Row(A), k \in Kernel(A),from (c)) then
A(v) = A(r) + 0 = A(r) where A(r) = 0 <==> r = 0$.

[行ランク=列ランクであることの証拠を偶然に与える！]

（e）（d）、を適用することは同型です $A'|:Col(A)=\text{Row(A)} \rightarrow \text{Col(A')}=\text{Row(A)}$

（f）（d）および（e）によって：およびA'AはRow（A）を同型的にRow（A）にマッピングします。 $A'A(R^n) = \text{Row(A)}$

— マーシャル・M・コーエン
ソース

2

式を$と$で囲んでを取得できます。

L A T E X

$\LaTeX$

— プラキディア

2

はドット積を取るという意味があることは既に説明しましたが、この乗算のグラフィカルな表現のみを追加します。 $\textbf{A}^T\textbf{A}$

実際、行列（および行列列）は変数を表しますが、各変数の測定値を多次元ベクトルとして扱います。行乗算の列との 2つのベクトルの内積をとることと等価である： -結果は位置のエントリである、マトリックス内部。 $\textbf{A}^T$ $\textbf{A}$ $row_p$ $\textbf{A}^T$ $col_p$ $\textbf{A}$ $dot(row_p, col_p)$ $(p,p)$ $\textbf{A}^T \textbf{A}$

同様に、行乗算の列を用いてのドット積に等しい：位置における結果、。 $p$ $\textbf{A}^T$ $k$ $\textbf{A}$ $dot(row_p, col_k)$ $(p,k)$

結果の行列のエントリは、ベクトルがベクトルの方向にどれだけあるかという意味をます。2つのベクトルのドット積場合とゼロ以外である、いくつかの情報ベクトル約れる実施ベクトルによって、およびその逆。 $(p, k)$ $\textbf{A}^T\textbf{A}$ $row_p$ $col_k$ $row_i$ $col_j$ $row_i$ $col_j$

この考えは、主成分分析で重要な役割を果たします。ここでは、初期データ行列新しい表現を見つけたいので、他の列列に関する情報はもうありません。PCAをさらに詳しく調べると、共分散行列の「新しいバージョン」が計算され、それが対角行列になることがわかります。これは、実は前文で表現したことを意味します。 $\textbf{A}$ $i$ $j \neq i$

— カミレ
ソース

1

直感のレベルがあります。行列表記の統計に精通している人にとって、直観はそれをランダム変数の二乗と考えることです： vs $x\to E[x^2]$ $A\to A^TA$

行列表記では、ランダム変数観測値または母集団のサンプルは、列ベクトルで表されます $x$ $x_i$

a = [\begin{matrix} x_{1} \\ x_{2} \\ \dots \\ x_{n} \end{matrix}]

$a=\begin{bmatrix} x_1 \\ x_2 \\ \dots \\ x_n \end{bmatrix}$

したがって、変数二乗のサンプル平均を取得する場合は、ドット積取得します。これは、マトリックス表記と同じです。。 $x$

\bar{x^{2}} = \frac{a \cdot a}{n}

$\bar{x^2}=\frac{a\cdot a} n$

A^{T} A

$A^TA$

変数のサンプル平均がゼロの場合、分散は平方の平均に等しいことに注意してください：これは類似しています。これが、PCAでゼロ平均が必要な理由であり、すべてのPCAがデータセットの分散行列を分解するために表示される理由です。 $\sigma^2=E[x^2]$ $A^TA$ $A^TA$

— アクサカル
ソース