タグ付けされた質問 「covariance-matrix」

k×k確率変数のすべてのペア間の共分散の行列。これは、分散共分散行列または単に共分散行列とも呼ばれます。 k

6
データ行列の直感的な解釈はありますか?
特定のデータ行列(列に変数があり、行にデータポイントがある)について、が統計において重要な役割を果たすようです。たとえば、それは通常の最小二乗法の分析解の重要な部分です。または、PCAの場合、その固有ベクトルはデータの主成分です。AAAATAATAA^TA 計算方法は理解していますが、このマトリックスが表すものの直感的な解釈があり、それがその重要な役割につながるかどうか疑問に思っていましたか?ATAATAA^TA

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

5
逆共分散または精度行列の解釈方法は?
濃度行列または精度行列としても知られる逆共分散行列の要素の解釈を議論する参考文献を誰かが私に指摘できるかどうか疑問に思っていました。 CoxとWermuthの多変量依存関係にアクセスできますが、探しているのは逆行列の各要素の解釈です。ウィキペディアは次のように述べています。「精度行列の要素は、部分相関と部分分散の観点から解釈されています」と私はこのページに導かれます。線形回帰を使用しない解釈はありますか?IE、共分散または幾何学の面で?


3
相関行列が正の半正である必要があるのはなぜですか?また、正の半正であるかどうかはどういう意味ですか?
私は、相関行列または共分散行列の正の半正特性の意味を研究しています。 私は上の情報を探しています 正の半正定性の定義; その重要な特性、実用的な意味; 負の決定要因を持つことの結果、多変量解析やシミュレーション結果への影響など。

3
共分散行列の反転が確率変数間の部分相関をもたらすのはなぜですか?
ランダム変数間の偏相関は、共分散行列を反転し、そのような結果の精度行列から適切なセルを取得することで見つけることができると聞きました(この事実は http://en.wikipedia.org/wiki/Partial_correlationにいますが、証拠はありません) 。 これはなぜですか?

3
サンプルサイズが変数の数より小さいときに、サンプルの共分散行列が特異なのはなぜですか?
次元の多変量ガウス分布があるとしましょう。そして、この分布から観測値(それぞれベクトル)を取得し、標本共分散行列を計算します。この論文では、著者は、計算されたサンプル共分散行列は特異であると述べています。pppnnnpppSSSp>np>np > n それはどのように真実または派生していますか? 説明はありますか?

4
2つの共分散行列間の類似性または距離の測定
2つの対称共分散行列(どちらも同じ次元)の間に類似性または距離の尺度はありますか? ここでは、2つの確率分布のKL発散や、マトリックスに適用されないベクトル間のユークリッド距離の類似物を考えています。かなりの数の類似性測定があると思います。 理想的には、2つの共分散行列が同一であるという帰無仮説もテストしたいと思います。

5
強い相関が存在する大きなフルランクランダム相関行列を生成する方法
適度に強い相関が存在するように、n × nサイズのランダム相関行列を生成したいと思います。CC\mathbf Cn×nn×nn \times n サイズの正方実対称行列、たとえばn = 100 ;n×nn×nn \times nn=100n=100n=100 正定、つまり、すべての固有値が実数で正数の場合。 フルランク; すべての対角要素が等しい。111 非対角要素がなければならない合理的に均一に分布する。正確な分布は重要ではありませんが、適度に大きな値(たとえば、絶対値が0.5以上)をある程度適度に大きく(たとえば10 %)したいと思います。基本的に、すべての非対角要素≈0でCがほぼ対角線上にないことを確認したいと思います。(−1,1)(−1,1)(-1, 1)10%10%10\%0.50.50.5CC\mathbf C≈0≈0\approx 0 簡単な方法はありますか? 目的は、このようなランダム行列を使用して、相関(または共分散)行列を処理するアルゴリズムのベンチマークを行うことです。 動作しないメソッド 私が知っているランダム相関行列を生成するいくつかの方法を以下に示しますが、ここではうまくいきません。 s × nサイズのランダムなを生成し、中心化し、標準化して、相関行列C = 1を形成します。XX\mathbf Xs×ns×ns \times n。s>nの場合、これにより、通常、すべての非対角相関が0付近になります。もしS«nは、いくつかの相関が強くなりますが、Cはフルランクではありません。C=1s−1X⊤XC=1s−1X⊤X\mathbf C=\frac{1}{s-1}\mathbf X^\top \mathbf Xs>ns>ns>n000s≪ns≪ns\ll nCC\mathbf C 次のいずれかの方法で、ランダムな正定行列を生成します。BB\mathbf B ランダム平方生成対称正定作るB = A Aを ⊤。AA\mathbf AB=AA⊤B=AA⊤\mathbf B = \mathbf A …

1
共分散行列を使用して、重回帰の係数を見つける方法はありますか?
単純な線形回帰の場合、回帰係数は分散共分散行列CCCからC d 、eによって 直接計算できます。Cd,eCe,eCd,eCe,e C_{d, e}\over C_{e,e} ここで、dddは従属変数のインデックス、eeeは説明変数のインデックスです。 共分散行列しかない場合、複数の説明変数を持つモデルの係数を計算できますか? ETAは、2つの説明変数については、それが現れる と同様のためのβ2。これを3つ以上の変数に拡張する方法がすぐにわかりません。β1=Cov(y,x1)var(x2)−Cov(y,x2)Cov(x1,x2)var(x1)var(x2)−Cov(x1,x2)2β1=Cov(y,x1)var(x2)−Cov(y,x2)Cov(x1,x2)var(x1)var(x2)−Cov(x1,x2)2\beta_1 = \frac{Cov(y,x_1)var(x_2) - Cov(y,x_2)Cov(x_1,x_2)}{var(x_1)var(x_2) - Cov(x_1,x_2)^2} β2β2\beta_2

2
特定のサンプル共分散行列を使用してデータを生成する
共分散行列与えられた場合、サンプルの共分散行列を持つようにデータを生成する方法は?Σ = Σ SΣsΣs\boldsymbol \Sigma_sΣ^= ΣsΣ^=Σs\hat{\boldsymbol \Sigma} = \boldsymbol \Sigma_s より一般的に:密度からデータを生成し、データパラメーターベクトル与えることに興味があります。これによりサンプルが生成され、そこから再び値推定できます。私が興味を持って中だと、逆の問題です:私たちは、パラメータのセットが指定されている場合はどうすれば、私たちはサンプルを生成したい、このような、その。X θ θ θ Sのx θ = θ Sf(x | θ )f(バツ|θ) f(x \vert \boldsymbol\theta) バツバツxθθ\boldsymbol\thetaθ^θ^\boldsymbol{\hat\theta}θsθs\boldsymbol\theta_{s}バツバツxθ^= θsθ^=θs \boldsymbol{\hat\theta} = \boldsymbol\theta_{s} これは既知の問題ですか?そのような方法は便利ですか?アルゴリズムは利用可能ですか?

3
多重打ち切りデータの共分散行列の不偏推定
環境サンプルの化学分析は、報告限界またはさまざまな検出/定量限界でしばしば打ち切られます。後者は、通常、他の変数の値に比例して変化します。たとえば、ある化合物の濃度が高いサンプルは、分析のために希釈する必要があり、そのサンプルで同時に分析される他のすべての化合物の打ち切り限界が比例的に増大する場合があります。別の例として、化合物の存在により、他の化合物に対する試験の反応が変化する場合があります(「マトリックス干渉」)。これが研究室で検出されると、それに応じてレポートの制限が膨らみます。 特に多くの化合物が50%を超える打ち切りを経験する場合に、このようなデータセットの分散共分散行列全体を推定する実用的な方法を模索しています。従来の分布モデルでは、(真の)濃度の対数は多重正規分布であり、これは実際にはうまく適合するようであるため、この状況の解決策が役立ちます。 (「実用的」とは、R、Python、SASなどの少なくとも1つの一般的に利用可能なソフトウェア環境で、複数の代入で発生するような反復再計算をサポートするのに十分迅速に実行される方法で、確実にコーディングできる方法を意味します。そして、これはかなり安定している[だからこそ、一般的なベイジアンソリューションは歓迎されているが、BUGSの実装を検討するのを嫌がる]。 この件についてのご意見を事前に感謝します。

4
任意の共分散行列を作成する方法
たとえばR、のMASS::mvrnorm()関数は、統計のさまざまなことを示すデータを生成するのに役立ちます。Sigma変数の共分散行列を指定する対称行列である必須引数を取ります。任意のエントリを持つ対称行列を作成するにはどうすればよいですか?n×nn×nn\times n

7
対称正定値(SPD)行列がそれほど重要なのはなぜですか?
対称正定値(SPD)行列の定義は知っていますが、もっと理解したいです。 なぜ、直感的に重要なのですか? これが私が知っていることです。ほかに何か? 特定のデータの場合、共分散行列はSPDです。共分散行列は重要なメトリックです。直感的な説明については、この優れた投稿を参照してください。 二次形式12x⊤Ax−b⊤x+c12x⊤Ax−b⊤x+c\frac 1 2 x^\top Ax-b^\top x +cあれば、凸状であり、AAASPDです。凸は、ローカルソリューションがグローバルソリューションであることを確認できる関数の優れたプロパティです。Convexの問題には、解決すべき多くの優れたアルゴリズムがありますが、covex以外の問題にはありません。 AAAがSPDの場合、2次形式の最適化ソリューションはminimize 12x⊤Ax−b⊤x+cminimize 12x⊤Ax−b⊤x+c\text{minimize}~~~ \frac 1 2 x^\top Ax-b^\top x +cと線形システムのための溶液Ax=bAx=bAx=b同じです。したがって、2つの古典的な問題間で変換を実行できます。これは、あるドメインで発見されたトリックを別のドメインで使用できるため、重要です。たとえば、共役勾配法を使用して線形システムを解くことができます。 コレスキー分解など、SPDマトリックスに適した多くの優れたアルゴリズム(高速で安定した数値)があります。 編集:私はSPD行列のアイデンティティを尋ねるのではなく、重要性を示すためにプロパティの背後にある直観を求めています。たとえば、@ Matthew Druryが述べたように、行列がSPDの場合、固有値はすべて正の実数ですが、なぜすべてが正であるかが重要です。@Matthew Druryはフローに対して素晴らしい回答をしてくれました。

4
実際には、混合効果モデルでランダム効果共分散行列はどのように計算されますか?
基本的に私が思っているのは、異なる共分散構造がどのように適用され、これらの行列内の値がどのように計算されるかです。lme()などの関数を使用すると、どの構造が必要かを選択できますが、それらの推定方法を知りたいと思います。 線形混合効果モデル考えます。Y=Xβ+Zu+ϵY=Xβ+Zu+ϵY=X\beta+Zu+\epsilon ここで、および。さらに:ε D 〜 N (0 、R )u∼dN(0,D)u∼dN(0,D)u \stackrel{d}{\sim} N(0,D)ϵ∼dN(0,R)ϵ∼dN(0,R)\epsilon \stackrel{d}{\sim} N(0,R) Var(Y|X,Z,β,u)=RVar(Y|X,Z,β,u)=RVar(Y|X,Z,\beta,u)=R Var(Y|X,β)=Z′DZ+R=VVar(Y|X,β)=Z′DZ+R=VVar(Y|X,\beta)=Z'DZ+R=V 簡単にするために、ます。R=σ2InR=σ2InR=\sigma^2I_n 基本的に私の質問は、さまざまなパラメーター化のデータからどの程度正確に推定するかです。が対角(ランダム効果は独立)であるか、Dが完全にパラメーター化されている(現時点でより興味がある場合)か、他のさまざまなパラメーター化のいずれかであると仮定しますか?これらの簡単な推定量/方程式はありますか?(それは間違いなく繰り返し推定されるでしょう。)D DDDDDDDDDD 編集: 書籍Variance Components(Searle、Casella、McCulloch 2006)から、私は何とか次のように光り輝くことができました。 もしD=σ2uIqD=σu2IqD=\sigma^2_uI_q次のように、その後、分散コンポーネントが更新され、計算されます。 σ2(k+1)u=u^Tu^σ2(k)utrace(V−1ZTZ)σu2(k+1)=u^Tu^σu2(k)trace(V−1ZTZ)\sigma_u^{2(k+1)} = \frac{\hat{\textbf{u}}^T\hat{\textbf{u}}} {\sigma_u^{2(k)}\text{trace}(\textbf{V}^{-1}\textbf{Z}^T\textbf{Z})} σ2(k+1)e=Y′(Y−Xβ^(k)−Zu^(k))/nσe2(k+1)=Y′(Y−Xβ^(k)−Zu^(k))/n\sigma_e^{2(k+1)} = Y'(Y-X{\hat{\beta}}^{(k)}-{Z}\hat{{u}}^{(k)})/n ここで、β^(k)β^(k)\hat{\beta}^{(k)}およびu^(k)u^(k)\hat{{u}}^{(k)}はそれぞれkkk番目の更新です。 DDDがブロック対角または完全にパラメーター化されている場合の一般的な式はありますか?完全にパラメータ化されたケースでは、コレスキー分解を使用して、正定性と対称性を確保しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.