統計とビッグデータ linear-algebra

9

最近、多くの人々が多くの方法（テンソル因数分解、テンソルカーネル、トピックモデリングのテンソルなど）のテンソル等価物を開発していることに気付きました。なぜ世界は突然テンソルに魅了されるのでしょうか。これをもたらした特に驚くべき最近の論文/標準結果はありますか？以前に疑われていたよりも計算上はるかに安価ですか？私はglibではありません、私は心から興味があり、これに関する論文へのポインタがあれば、私はそれらを読みたいです。

171 machine-learning references matrix linear-algebra tensor

9

線形代数のリファレンスブックは統計に適用されますか？

私はRで少し働いていて、PCA、SVD、QR分解、および多くのそのような線形代数結果（重み付き回帰などの推定を検査するとき）のようなものに直面しているので、誰かが良いものに関する推奨事項を持っているかどうかを知りたい理論的ではないが数学的に厳密であり、これらのトピックすべてを網羅した包括的な線形代数の本。

54 references matrix linear-algebra weighted-regression

5

PCAが（距離を伴う）幾何学的問題から（固有ベクトルを伴う）線形代数問題にどのように変化するかについての直感的な説明は何ですか？

私は（のような様々なチュートリアルや質問など、PCAについて多く、読んだ本1、この1、この1、およびこれを）。 PCAが最適化しようとしている幾何学的問題は、私には明らかです。PCAは、再構成（投影）エラーを最小化することで最初の主成分を見つけようとし、同時に投影データの分散を最大化します。最初にそれを読んだとき、私はすぐに線形回帰のようなものを考えました。必要に応じて、勾配降下法を使用して解決できます。しかし、その後、線形代数を使用して固有ベクトルと固有値を見つけることで最適化問題が解決されることを読んだとき、私の心は吹き飛ばされました。私は、この線形代数の使用がどのように作用するかを単純に理解していません。だから私の質問は次のとおりです。PCAはどのようにして幾何学的最適化問題から線形代数問題に変わるのでしょうか？誰かが直感的な説明を提供できますか？私のような答えを捜しているわけではない、この1と言い、「あなたはPCAの数学の問題を解決するとき、それは共分散行列の固有値と固有ベクトルを見つけることと等価なってしまいます。」固有ベクトルが主成分となる理由と、固有ベクトルが投影されるデータの分散となる理由を説明してくださいちなみに、私はソフトウェアエンジニアであり、数学者ではありません。注：上記の図は、このPCAチュートリアルから取られて変更されています。

54 pca optimization linear-algebra intuition

3

SVDの背後にある直感とは何ですか？

特異値分解（SVD）について読みました。ほとんどすべての教科書では、指定された仕様で行列を3つの行列に分解することが言及されています。しかし、そのような形式でマトリックスを分割する背後にある直観は何ですか？次元削減のためのPCAおよびその他のアルゴリズムは、アルゴリズムに優れた視覚化特性があるという意味で直感的ですが、SVDではそうではありません。

50 matrix linear-algebra svd intuition

2

すべての共分散行列は正定ですか？

答えはイエスだと思いますが、それでも何か間違っていると感じています。文献にはいくつかの一般的な結果があるはずですが、誰か助けてもらえますか？

48 covariance matrix covariance-matrix linear-algebra

3

共分散行列の反転が確率変数間の部分相関をもたらすのはなぜですか？

ランダム変数間の偏相関は、共分散行列を反転し、そのような結果の精度行列から適切なセルを取得することで見つけることができると聞きました（この事実は http://en.wikipedia.org/wiki/Partial_correlationにいますが、証拠はありません）。これはなぜですか？

32 covariance covariance-matrix linear-algebra partial-correlation matrix-inverse

3

サンプルサイズが変数の数より小さいときに、サンプルの共分散行列が特異なのはなぜですか？

次元の多変量ガウス分布があるとしましょう。そして、この分布から観測値（それぞれベクトル）を取得し、標本共分散行列を計算します。この論文では、著者は、計算されたサンプル共分散行列は特異であると述べています。pppnnnpppSSSp>np>np > n それはどのように真実または派生していますか？説明はありますか？

30 covariance-matrix linear-algebra

4

Andrew NgがPCAを行うために共分散行列のEIGではなくSVDを使用することを好むのはなぜですか？

Andrew NgのCourseraコースのPCAと他の資料を勉強しています。スタンフォードNLPコースcs224nの最初の課題、およびAndrew Ngの講義ビデオでは、共分散行列の固有ベクトル分解の代わりに特異値分解を行い、NgはSVDが固有分解よりも数値的に安定しているとさえ述べています。私の理解では、PCAの場合、(m,n)サイズの共分散行列ではなく、サイズのデータ行列のSVDを行う必要があり(n,n)ます。そして、共分散行列の固有ベクトル分解。なぜデータ行列ではなく共分散行列のSVDを行うのですか？

29 pca linear-algebra svd eigenvalues numerics

3

次元の2つのランダムな単位ベクトルのスカラー積の分布

場合と内の2つの独立したランダムな単位ベクトルでありそれらのスカラー積（内積）の分布が何であるか（均一単位球面上に分布）、？、Y のR D X ⋅ Yバツバツ\mathbf{x}yy\mathbf{y}RDRD\mathbb{R}^DX ⋅ Yバツ⋅y\mathbf x \cdot \mathbf y ように私は推測迅速に配布を成長より高い次元でゼロと正常になる平均及び分散減少（？）しかしのための明示的な公式がある\ sigma ^ 2（D）？DDDリムD → ∞σ2（D ）→ 0 、リムD→∞σ2（D）→0、\lim_{D\to\infty}\sigma^2(D) \to 0,σ2（D ）σ2（D）\sigma^2(D) 更新簡単なシミュレーションをいくつか実行しました。最初に、D = 1000のランダムな単位ベクトルの10000ペアを生成D = 1000D=1000D=1000すると、それらのドット積の分布が完全にガウス分布であることが簡単にわかります（実際、すでにD = 100の場合はかなりガウス分布ですD = 100D=100D=100）。左側のサブプロットを参照してください。次に、1から10000までの各Dに対してDDD（ステップを増やしながら）1000ペアを生成し、分散を計算しました。ログ-ログプロットは右側に示されており、式が1 / Dで非常によく近似されていることは明らかです1 / D1/D1/D。D = 1D=1D=1およびD = 2D=2D=2この式で正確な結果が得られることにも注意してください（ただし、後で何が起こるかわかりません）。

27 mathematical-statistics linear-algebra beta-distribution

3

ランダムデータのSVD結果における奇妙な相関。彼らは数学的な説明を持っていますか、それはLAPACKのバグですか？

ランダムデータのSVD結果に非常に奇妙な動作が見られます。これは、MatlabとRの両方で再現できます。LAPACKライブラリの数値の問題のようです。それは...ですか？平均がゼロで、共分散がゼロの次元ガウスからサンプルを描画します：。データ行列にアセンブルします。（オプションで中央に配置するかどうかは、以下に影響しません。）次に、特異値分解（SVD）を実行してを取得します。 2つの特定の要素、たとえばと取り上げて、異なる描画間でそれらの間の相関関係をみましょう。数字があれば、K = 2 X 〜N（0 、I）1000年× 2 X X X = U S V ⊤ U U 11 U 22 X N個のR EのPn=1000n=1000n=1000k=2k=2k=2X∼N(0,I)X∼N(0,I)X\sim \mathcal N (0, \mathbf I)1000×21000×21000 \times 2XX\mathbf XXX\mathbf XX=USV⊤X=USV⊤\mathbf X=\mathbf{USV}^\topUU\mathbf UU11U11U_{11}U22U22U_{22}XX\mathbf XNrepNrepN_\mathrm{rep}描画のは適度に大きいため、このような相関はすべてゼロに近いはずです（つまり、母集団の相関はゼロでなければならず、サンプルの相関は小さくなります）。ただし、、、、および間で、これらの要素間でのみ、いくつかの奇妙な強い相関関係（約）が観察されます。他のすべての要素のペアには、予想どおりゼロ付近の相関があります。ここではどのようにするための相関行列20の「上部」の要素Uが\ mathbf（最初のように見える10個の、最初の列の要素、最初の10秒の列の要素）。U 11 U 12 U 21 U 22±0.2±0.2\pm0.2U11U11U_{11}U12U12U_{12}U21U21U_{21}U22U22U_{22}U 10 10202020UU\mathbf U101010101010 各象限の左上隅にある奇妙に高い値に注意してください。 …

21 pca svd linear-algebra numerics

7

対称正定値（SPD）行列がそれほど重要なのはなぜですか？

対称正定値（SPD）行列の定義は知っていますが、もっと理解したいです。なぜ、直感的に重要なのですか？これが私が知っていることです。ほかに何か？特定のデータの場合、共分散行列はSPDです。共分散行列は重要なメトリックです。直感的な説明については、この優れた投稿を参照してください。二次形式12x⊤Ax−b⊤x+c12x⊤Ax−b⊤x+c\frac 1 2 x^\top Ax-b^\top x +cあれば、凸状であり、AAASPDです。凸は、ローカルソリューションがグローバルソリューションであることを確認できる関数の優れたプロパティです。Convexの問題には、解決すべき多くの優れたアルゴリズムがありますが、covex以外の問題にはありません。 AAAがSPDの場合、2次形式の最適化ソリューションはminimize 12x⊤Ax−b⊤x+cminimize 12x⊤Ax−b⊤x+c\text{minimize}~~~ \frac 1 2 x^\top Ax-b^\top x +cと線形システムのための溶液Ax=bAx=bAx=b同じです。したがって、2つの古典的な問題間で変換を実行できます。これは、あるドメインで発見されたトリックを別のドメインで使用できるため、重要です。たとえば、共役勾配法を使用して線形システムを解くことができます。コレスキー分解など、SPDマトリックスに適した多くの優れたアルゴリズム（高速で安定した数値）があります。編集：私はSPD行列のアイデンティティを尋ねるのではなく、重要性を示すためにプロパティの背後にある直観を求めています。たとえば、@ Matthew Druryが述べたように、行列がSPDの場合、固有値はすべて正の実数ですが、なぜすべてが正であるかが重要です。@Matthew Druryはフローに対して素晴らしい回答をしてくれました。

20 mathematical-statistics optimization covariance-matrix intuition linear-algebra

1

サブジェクト（デュアル）スペースでのPCAの幾何学的理解

私は、主成分分析（PCA）がサブジェクト（デュアル）スペースでどのように機能するかを直感的に理解しようとしています。 2つの変数と、およびデータポイント（データ行列はあり、中心にあると想定される）を含む2Dデータセットを考えます。PCAの通常の表現は、点を考慮し、共分散行列を書き留め、その固有ベクトルと固有値を見つけることです。最初のPCは最大分散の方向などに対応します。これは共分散行列です。赤い線は、それぞれの固有値の平方根でスケーリングされた固有ベクトルを示しています。x1x1x_1x2x2x_2nnnXX\mathbf Xn×2n×2n\times 2nnnR2R2\mathbb R^22×22×22\times 2C=(4222)C=(4222)\mathbf C = \left(\begin{array}{cc}4&2\\2&2\end{array}\right) \hskip 1in 次に、デュアルスペース（機械学習で使用される用語）とも呼ばれる、対象空間（@ttnphnsからこの用語を学びました）で何が起こるかを考えます。これは、2つの変数のサンプル（ 2列）が2つのベクトルおよび形成する次元空間です。各可変ベクトルの長さの2乗はその分散に等しく、2つのベクトル間の角度のコサインはそれらの間の相関に等しくなります。ちなみに、この表現は重回帰の処理において非常に標準的です。私の例では、対象空間は次のようになります（2つの変数ベクトルにまたがる2D平面のみを表示しています）。X x 1 x 2nnnXX\mathbf Xx1x1\mathbf x_1x2x2\mathbf x_2 \hskip 1in 2つの変数の線形結合である主成分は、同じ平面で2つのベクトルおよびします。私の質問は、そのようなプロットで元の変数ベクトルを使用して主成分変数ベクトルを形成する方法の幾何学的な理解/直感は何ですか？と与えられた場合、を生成する幾何学的な手順は何ですか？p 2 x 1 x 2 p 1p1p1\mathbf p_1p2p2\mathbf p_2x1x1\mathbf x_1x2x2\mathbf x_2p1p1\mathbf p_1 以下は私の現在の部分的な理解です。まず、標準的な方法で主成分/軸を計算し、同じ図にプロットします。 \hskip 1in また、は、（青いベクトル）と上の投影の距離の二乗の合計が最小になるように選択されていることに注意できます。これらの距離は再構成エラーであり、黒い破線で示されています。同様に、は、両方の投影の長さの2乗の合計を最大化します。これは、を完全に指定し、もちろん、プライマリ空間での同様の説明に完全に類似しています（主成分分析、固有ベクトル、固有値の理解に対する私の回答のアニメーションを参照）。こちらの@ttnphnsの回答の最初の部分もご覧ください。x i p 1 p 1 p 1p1p1\mathbf p_1xixi\mathbf x_ip1p1\mathbf p_1p1p1\mathbf …

19 pca linear-algebra intuition geometry

1

主成分分析を使用してデータを白くするには？

データを変換したいバツX\mathbf X分散が1で共分散がゼロになるようにます（つまり、データを白色化します）。さらに、平均はゼロでなければなりません。私はZ標準化とPCA変換を行うことでそこに到達することを知っていますが、どの順序でそれらを行うべきですか？合成されたホワイトニング変換の形式はなければなりません。X ↦Wx + bx↦Wx+b\mathbf{x} \mapsto W\mathbf{x} + \mathbf{b} これらの変換を正確に行い、上記の形式の式を提供するPCAに似た方法はありますか？

18 pca linear-algebra

2

フィッシャー情報マトリックスが半正定値であるのはなぜですか？

ましょう。フィッシャー情報マトリックスは次のように定義されます。θ∈Rnθ∈Rn\theta \in R^{n} I(θ)i,j=−E[∂2log(f(X|θ))∂θi∂θj∣∣∣θ]I(θ)i,j=−E[∂2log⁡(f(X|θ))∂θi∂θj|θ]I(\theta)_{i,j} = -E\left[\frac{\partial^{2} \log(f(X|\theta))}{\partial \theta_{i} \partial \theta_{j}}\bigg|\theta\right] フィッシャー情報マトリックスが半正定値であることをどのように証明できますか？

18 inference linear-algebra fisher-information

1

多変量正規後部

これは非常に単純な質問ですが、インターネットまたは本のどこにも派生物が見つかりません。1つのベイジアンが多変量正規分布を更新する方法の導出を確認したいと思います。例：想像してみてください P(x|μ,Σ)P(μ)==N(μ,Σ)N(μ0,Σ0).P(x|μ,Σ)=N(μ,Σ)P(μ)=N(μ0,Σ0). \begin{array}{rcl} \mathbb{P}({\bf x}|{\bf μ},{\bf Σ}) & = & N({\bf \mu}, {\bf \Sigma}) \\ \mathbb{P}({\bf \mu}) &= & N({\bf \mu_0}, {\bf \Sigma_0})\,. \end{array} {\ bf x_1 ... x_n}のセットを観察した後、\ mathbb {P}（{\ bf \ mu | x_1 ... x_n}）x1...xnx1...xn{\bf x_1 ... x_n}を計算したいと思います。答えは\ mathbb {P}（{\ bf \ mu | x_1 ... x_n}）= …

18 bayesian normal-distribution matrix posterior linear-algebra

タグ付けされた質問 「linear-algebra」

タグ付けされた質問「linear-algebra」