タグ付けされた質問 「covariance-matrix」

k×k確率変数のすべてのペア間の共分散の行列。これは、分散共分散行列または単に共分散行列とも呼ばれます。 k

3
線形回帰の誤差の分散共分散行列
実際には、var / covエラーマトリックスは統計分析パッケージによってどのように計算されますか? この考えは理論的には私には明らかです。しかし実際にはそうではありません。つまり、確率変数のベクトルがある場合、分散/共分散行列平均からの逸脱ベクトルの外積が与えられます:。 ΣX=(X1,X2,…,Xn)⊤X=(X1,X2,…,Xn)⊤\textbf{X}=(X_{1}, X_{2}, \ldots, X_{n})^\topΣΣ\SigmaΣ=E[(X−E(X))(X−E(X))⊤]Σ=E[(X−E(X))(X−E(X))⊤]\Sigma=\mathrm{E}\left[(\textbf{X}-\mathrm{E}(\textbf{X}))(\textbf{X}-\mathrm{E}(\textbf{X}))^\top\right] しかし、サンプルがある場合、私の観測の誤差は確率変数ではありません。またはそれ以上ですが、同じ母集団から多数の同一のサンプルを取得した場合のみです。そうでなければ、それらは与えられます。だから、再び私の質問は:統計パッケージはどのようにして研究者によって提供された観測(つまりサンプル)のリストから始まるvar / cov行列を生成できるのでしょうか?

1
サンプルの共分散行列が反転可能でない場合はどうすればよいですか?
いくつかのクラスタリング手法に取り組んでいます。d次元ベクトルの特定のクラスターについて、多変量正規分布を仮定し、サンプルのd次元平均ベクトルとサンプルの共分散行列を計算します。 次に、目に見えない新しいd次元ベクトルがこのクラスターに属しているかどうかを判断しようとするときに、次のメジャーを使用してその距離をチェックしています: (Xi−μ^X)′σ^−1X(Xi−μ^X)>B0.95(p2,−p2)(Xi−μ^X)′σ^X−1(Xi−μ^X)>B0.95(p2,−p2)\left(X_i-\hat{\mu}_X\right)'\hat{\sigma}_X^{-1}\left(X_i-\hat{\mu}_X\right)>B_{0.95}\left(\frac{p}{2},\frac{-p}{2}\right) これには、共分散行列の逆行列を計算する必要があります。しかし、いくつかのサンプルを考えると、共分散行列が可逆であることを保証できません。そうでない場合はどうすればよいですか?σ^Xσ^X\hat{\sigma}_X ありがとう

1
相互共分散行列がゼロでないかどうかをテストするにはどうすればよいですか?
私の研究の背景: ギブスサンプリングでは、(対象の変数)とをそれぞれとからサンプリングします。ここで、とは次元のランダムベクトルです。通常、プロセスは2つの段階に分かれています。XXXP (X | Y )P (Y | X )X Y kYYYP(X|Y)P(X|Y)P(X|Y)P(Y|X)P(Y|X)P(Y|X)XXXYYYkkk すべてのサンプルを破棄するバーンイン期間。サンプルをおよびます。Y 1〜Y トンX1∼XtX1∼XtX_1\sim X_tY1∼YtY1∼YtY_1\sim Y_t 「バーンイン後」の期間。サンプルを平均化し、最終的な望ましい結果としてをします。X¯=1k∑ki=1Xt+iX¯=1k∑i=1kXt+i\bar{X} = \frac{1}{k}\sum_{i=1}^k X_{t+i} ただし、「アフターバーンイン」シーケンスのサンプルは独立して配布されません。したがって、最終結果の分散を調べたい場合は、バツt + 1〜Xt + kXt+1∼Xt+kX_{t+1}\sim X_{t+k} Var[ X¯] = Var[ ∑i = 1kバツt + i] = 1k2(Σi = 1kVar[ Xt + i] + ∑i = 1k − 1Σj = …

3
非線形依存の測定
2つの確率変数間の共分散は、それらが互いに線形にどの程度密接に関連しているかの尺度を定義します。しかし、共同分布が円形の場合はどうでしょうか。確かに分布には構造があります。この構造はどのように抽出されますか?

3
すべての相関行列は正定ですか?
ここでピアソン相関の行列について話しています。 私は、すべての相関行列は正の半正定行列でなければならないと言っていることをよく耳にします。私の理解では、正定行列はより大きい固有値でなければならず、正半定行列は固有値なければなりません。これは私の質問を「相関行列が固有値を持つことは可能ですか?」と言い換えることができると思います。≥ 0 = 0&gt; 0&gt;0> 0≥ 0≥0\ge 0= 0=0= 0 (欠損データのない経験的データから生成された)相関行列が固有値、または固有値ですか?代わりに人口相関行列である場合はどうなりますか?&lt; 0= 0=0= 0&lt; 0&lt;0< 0 私は一番上の答えで読ん共分散行列については、この質問へのこと 、、 3つの変数を考えます。が正ではないベクトル()があるため、それらの共分散行列は正定ではありません。Y Z = X + Y MをZ = (1 、1 、- 1 )' Z ' M ZバツXXYYYZ=X+YZ=X+YZ = X+YMMMzzz=(1,1,−1)′=(1,1,−1)′= (1, 1, -1)'z′Mzz′Mzz'Mz ただし、共分散行列の代わりに相関行列でこれらの計算を行うと、は正の値になります。したがって、相関行列と共分散行列では状況が異なると思います。z′Mzz′Mzz'Mz 私が尋ねる理由は、私がそこで尋ねた質問に関して、stackoverflowで尋ねられたからです。

3
共分散行列が正定でないときに因子分析を行う方法は?
33の変数(列)によって記述される717の観測(行)で構成されるデータセットがあります。データは、すべての変数をzスコアリングすることによって標準化されます。2つの変数が線形従属ではありません()。また、分散が非常に小さい(0.1未満)すべての変数を削除しました。以下の図は、対応する相関行列(絶対値)を示しています。r = 1r=1r=10.10.10.1 factoranMatlabで次のように使用して因子分析を実行しようとすると: [Loadings1,specVar1,T,stats] = factoran(Z2,1); 次のエラーが表示されます。 The data X must have a covariance matrix that is positive definite. 問題がどこにあるか教えていただけませんか?使用されている変数間の相互依存性が低いためですか?また、どうすればいいですか? 私の相関行列:

1
すべてのPLSコンポーネントが一緒になって元のデータの分散の一部しか説明しないのはなぜですか?
10個の変数で構成されるデータセットがあります。部分最小二乗(PLS)を実行して、これらの10個の変数によって単一の応答変数を予測し、10個のPLSコンポーネントを抽出して、各コンポーネントの分散を計算しました。元のデータでは、702であるすべての変数の分散の合計を取った。 次に、各PLSコンポーネントの分散をこの合計で割って、PLSで説明される分散のパーセンテージを得ました。驚くべきことに、すべてのコンポーネントを合わせると、元の分散の44%しか説明されません。 その説明は何ですか?100%じゃないですか?

2
最小の共分散行列を見つけるための適切な指標
教科書では、2つの共分散行列を比較するために正定性(準正定性)を使用していることを読んでいます。A−BA−BA-Bがpdの場合、BBBはAAAよりも小さいという考えです。しかし、私はこの関係の直感を得るために苦労していますか? ここに同様のスレッドがあります: /math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices 行列を比較するために明確性を使用する直感とは何ですか? 答えはいいですが、直感には対応していません。 ここに私が混乱する例があります: [1612129]−[1224][1612129]−[1224]\begin{equation} \begin{bmatrix} 16 & 12 \\ 12 & 9 \end{bmatrix} - \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} \end{equation} ここで、差の行列式は-25なので、関係はpdまたはpsdでもなく、最初の行列は最初の行列よりも大きくありませんか? 2つの3 * 3共分散行列を比較して、どちらが最小かを確認したいだけですか?それらを比較するためにユークリッドノルムのようなものを使用する方が私にとってより直感的に見えるでしょうか?ただし、これは、上記の最初のマトリックスが2番目のマトリックスよりも大きいことを意味します。さらに、共分散行列の比較に使用されるpd / psd基準のみが表示されます。 誰かがpd / psdがユークリッドノルムなどの別の尺度を使用するよりも優れている理由を説明できますか? 私はまた、数学フォーラムにこの質問を投稿しました(何が最善だったのかわかりません)。これがルールに違反しないことを願っています。 /math/628135/comparing-two-covariance-matrices

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
固有ベクトルの視覚的な説明について混乱:視覚的に異なるデータセットが同じ固有ベクトルを持つことができるのはなぜですか?
多くの統計教科書は、共分散行列の固有ベクトルが何であるかを直感的に説明しています。 ベクトルuとzは固有ベクトル(まあ、固有軸)を形成します。意味あり。しかし、混乱するのは、生データではなく相関行列から固有ベクトルを抽出することです。さらに、まったく異なる生データセットは、同一の相関行列を持つことができます。たとえば、次の両方には次の相関行列があります。 [ 10.970.971][10.970.971]\left[\begin{array}{} 1 & 0.97 \\ 0.97 &1\end{array}\right] そのため、同じ方向を指す固有ベクトルがあります。 [ .71.71− .71.71][.71−.71.71.71]\left[\begin{array}{} .71 & -.71 \\ .71 & .71\end{array}\right] しかし、固有ベクトルが生データのどの方向であるかについて同じ視覚的解釈を適用すると、異なる方向を指すベクトルが得られます。 誰かが私がどこが間違っているのか教えてもらえますか? 二番目の編集:私が大胆であるかもしれないなら、以下の優れた答えで私は混乱を理解し、それを説明することができました。 視覚的説明は、共分散行列から抽出された固有ベクトルが異なるという事実と一致しています。 共分散と固有ベクトル(赤): [ 1111] [ .7.72− .72。7][1111][。7−.72.72。7]\left[\begin{array}{} 1 & 1 \\ 1 & 1\end{array}\right] \left[\begin{array}{} .7 & -.72 \\ .72 & .7\end{array}\right] 共分散と固有ベクトル(青): [ .25.5.51] [ …


2
lme4の変量効果の分散共分散構造
でランダム効果のデフォルトの分散-共分散構造は何であるglmerかlmerでlme4パッケージは?コード内の変量効果に対して他の分散共分散構造をどのように指定しますか?lme4ドキュメントにこれに関する情報は見つかりませんでした。

2
ポリゴンの共分散行列を見つける方法は?
一連の座標(x1,y1)...(xn,yn)(x1,y1)...(xn,yn)(x_1,y_1)...(x_n,y_n)によって定義されたポリゴンがあると想像してください。。。(X N、Y N)と質量の中心は、である(0,0)(0,0)(0,0)。多角形は、多角形の境界を持つ均一な分布として扱うことができます。 私は多角形の共分散行列を見つける方法の後にいます。 ポリゴンの共分散行列は面積の2次モーメントと密接に関連していると思いますが、それらが同等であるかどうかはわかりません。リンクしたWikipediaの記事にある数式は、多角形の主軸ではなく、x、y、z軸の周りの回転慣性を参照しているようです(この記事から推測すると、ここでは特にわかりません)。 (ちなみに、ポリゴンの主軸の計算方法を誰かに教えてもらえれば、それも役に立ちます) 座標でPCAを実行するのは魅力的ですが、そうすると、座標が必ずしもポリゴンの周囲に均等に分散されないため、ポリゴンの密度が表されないという問題が発生します。極端な例は、ノースダコタの輪郭です。そのポリゴンは、レッドリバーに続く多数のポイントと、州の西端を定義するポイントが2つだけ多いことによって定義されます。

3
1または-1に等しい変量効果の相関関係をどうするか?
複雑な最大混合モデル(特定のデータとモデルのすべての可能な変量効果を推定する)を扱う場合、それほど珍しいことではありませんが、一部の変量効果の間で完全(+1または-1)またはほぼ完全な相関関係です。議論のために、次のモデルとモデルの要約を見てみましょう Model: Y ~ X*Cond + (X*Cond|subj) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects Random effects: Groups Name …

1
共分散行列、相関行列、および/またはそれらの逆行列の行列式には、有用な解釈がありますか?
数年前にVBとT-SQLで共分散行列と相関行列、およびそれらの逆行列を計算する方法を学びながら、さまざまなエントリに、適切なデータマイニングシナリオで役立つような興味深いプロパティがあることを知りました。1つの明白な例は、共分散行列の対角線上の分散の存在です。私がまだ使用していないが、ある時点で役立つ可能性のあるいくつかのそれほど明白ではない例は、逆相関行列の分散インフレ係数と逆共分散行列の部分相関です。 ただし、文献で直接取り上げられていないのは、これらの行列の行列式を解釈する方法です。行列式は他の種類の行列に対しても頻繁に計算されるため、行列に関する多くの情報が見つかると予想していましたが、StackExchangeフォーラムと他のインターネットの両方のカジュアルな検索ではほとんど結果を出せませんでした。私が遭遇したほとんどの言及は、主成分分析(PCA)やホテリングの検定など、他の統計検定やアルゴリズムを計算するプロセスの単一ステップとして行列式を使用することに関係しています。単独でこれらの決定要因を解釈する方法に直接対処するものはありません。それらがデータマイニングに関する文献で頻繁に議論されない実際的な理由はありますか?さらに重要なことには、それらは、スタンドアロンの方法で有用な情報を提供しますか?その場合、それぞれの決定要因をどのように解釈できますか?私は行列式が線形変換によって誘発される符号付きボリュームの一種であることを理解しているので、これらの特定の行列式の行列式は、セット全体にわたる共分散や相関などのある種の体積測定を意味するのではないかと疑います( 2つの属性または変数間の通常の共分散および相関とは対照的に)。それはまた、それらの逆がどのようなボリュームを表すかという疑問を投げかけます。私はこのトピックや、さらに推測するのに必要な重い行列の計算についてはあまり詳しくありませんが、4種類すべての行列とその行列式をコーディングすることができます。私の質問は迫っていません、しかし、長期的には、これらのマトリックスとその決定要因を探索的データマイニングプロセスに定期的に含めることの価値があるかどうかを判断する必要があります。これらの特定の言語では、1対1の2変量の方法で共分散と相関を計算する方が安くなりますが、費用を正当化するより深い洞察を導き出すことができれば、余計なことをせずに行列式計算を実装します。プログラミングリソース。前もって感謝します。プログラミングリソースの観点から費用を正当化するより深い洞察を引き出すことができる場合は、さらに一歩進んで行列式計算を実装します。前もって感謝します。プログラミングリソースの観点から費用を正当化するより深い洞察を引き出すことができる場合は、さらに一歩進んで行列式計算を実装します。前もって感謝します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.