タグ付けされた質問 「covariance」

共分散は、2つの変数間の線形関係の強さと方向を測定するために使用される量です。共分散はスケーリングされていないため、しばしば解釈が困難です。変数のSDでスケーリングすると、ピアソンの相関係数になります。

2
主成分分析は株価/非定常データに使用できますか?
私は「ハッカーのための機械学習」という本の例を読んでいます。最初に例について詳しく説明し、次に私の質問について話します。 例: 25株価の10年間のデータセットを取得します。25の株価でPCAを実行します。主成分をダウジョーンズインデックスと比較します。PCとDJIの非常に強い類似性を観察します! 私が理解していることから、この例は、私のような初心者がPCAのツールがいかに効果的であるかを理解するのに役立つおもちゃのようなものです! しかし、別のソースから読むと、株価は非定常であり、株価でPCAを実行することは不合理であることがわかります。私が読んだソースは、株価の共分散とPCAを計算するという考えを完全にばかげています。 質問: この例はどのようにうまく機能しましたか?株価のPCAとDJIは非常に近いものでした。そしてデータは2002-2011年の株価からの実際のデータです。 誰かが静止/非定常データを読み取るための素晴らしいリソースを私に指摘できますか?私はプログラマーです。数学の知識が豊富です。しかし、私は3年間真剣な数学をしていません。ランダムウォークなどについてまた読み始めました。

2
条件付き独立性とそのグラフィック表現に関する
共分散の選択を研究するとき、私は一度以下の例を読みました。次のモデルに関して: その共分散行列と逆共分散行列は次のように与えられます、 ここでと独立性がここで逆共分散によって決定される理由がわかりませんか?xxxyyy この関係の基礎となる数学的ロジックは何ですか? また、次の図の左側のグラフは、と間の独立関係を表すためのものです。どうして?xxxyyy

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
逆共分散行列の仮説検定
私が観察仮定IID 、及び試験たい vechため適合行列およびベクトル。この問題に関する既知の作業はありますか?H 0:A (Σ - 1) = A A Aバツ私〜N(μ 、Σ )xi∼N(μ,Σ)x_i \sim \mathcal{N}\left(\mu,\Sigma\right)H0:A H0:A H_0: A\ (Σ− 1) =a(Σ−1)=a\left(\Sigma^{-1}\right) = aあAAaaa (私にとって)明らかな試みは、尤度比テストによるものですが、の制約のを受ける可能性を最大化するには、SDPソルバーが必要であり、かなりかもしれません。H0H0H_0

1
標準化変数の共分散は相関ですか?
基本的な質問があります。とYの 2つの確率変数があるとします。平均を引いて標準偏差で割ることで標準化できます。つまり、X s t a n d a r d i z e d = (X − E (X ))バツXXYYY。バツs t a n da r d私はze d= (X− E(X))(SD (X))Xstandardized=(X−E(X))(SD(X))X_{standardized} = \frac{(X - E(X))}{(SD(X))} とYの相関、C o r (X 、Y )は、XとYの標準化されたバージョンの共分散と同じですか?つまり、C o r (X 、Y )= C o v (X s …

1
漸近共分散行列とは何ですか?
漸近共分散行列がパラメーター推定の共分散行列と等しいのは本当ですか?そうでない場合、それは何ですか?そして、その場合の共分散行列と漸近共分散行列の違いは何ですか?前もって感謝します!

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
場合、PCAを介したマハラノビス距離
私は行列、遺伝子の数であり、患者の数です。このようなデータを扱った人なら誰でも、は常によりも大きいことを知っています。特徴選択を使用して、をより妥当な数に下げましたが、はまだより大きいです。p n p n p p nn × pn×pn\times ppppんnnpppんnnppppppんnn 遺伝子プロファイルに基づいて患者の類似性を計算したいと思います。ユークリッド距離を使用することもできますが、マハラノビスは変数間の相関を考慮に入れるので、より適切に見えます。(この投稿で述べたように)問題は、マハラノビス距離、特に共分散行列が場合に機能しないことです。Rでマハラノビス距離を実行すると、次のエラーが発生します。n &lt; pn&lt;pn < p Error in solve.default(cov, ...) : system is computationally singular: reciprocal condition number = 2.81408e-21 これまでにこれを解決するために、PCAを使用しました。遺伝子を使用する代わりに、コンポーネントを使用しました。これにより、マハラノビス距離を計算できるようです。5つの成分は分散の約80%を表すため、ます。n &gt; pn&gt;pn > p 私の質問は次のとおりです。PCAを使用して患者間のマハラノビス距離を有意義に取得できますか、それとも不適切ですか?ときに機能する代替距離メトリックスはありますか?また、変数間に多くの相関関係がありますか?nn &lt; pn&lt;pn < pんnn

2
線形モデルの空間共分散をどのように説明できますか?
バックグラウンド 私は、2つのブロックのそれぞれに4つの処理レベルと6つの複製があるフィールド調査のデータを持っています。(4x6x2 = 48観測) ブロックは約1マイル離れており、ブロック内には、42のグリッド、2m x 4mの区画、および1mの幅の歩道があります。私の研究では、各ブロックで24のプロットのみを使用しました。 空間共分散の評価を評価したいと思います。 以下は、空間共分散を考慮しない、単一ブロックのデータを使用した分析の例です。データセットで、plotはプロットID、xはy各プロットのx位置とy位置で、プロット1は0を中心とし、0 levelは処理レベルでresponseあり、は応答変数です。 layout &lt;- structure(list(plot = c(1L, 3L, 5L, 7L, 8L, 11L, 12L, 15L, 16L, 17L, 18L, 22L, 23L, 26L, 28L, 30L, 31L, 32L, 35L, 36L, 37L, 39L, 40L, 42L), level = c(0L, 10L, 1L, 4L, 10L, 0L, 4L, 10L, 0L, 4L, …

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
共分散行列、相関行列、および/またはそれらの逆行列の行列式には、有用な解釈がありますか?
数年前にVBとT-SQLで共分散行列と相関行列、およびそれらの逆行列を計算する方法を学びながら、さまざまなエントリに、適切なデータマイニングシナリオで役立つような興味深いプロパティがあることを知りました。1つの明白な例は、共分散行列の対角線上の分散の存在です。私がまだ使用していないが、ある時点で役立つ可能性のあるいくつかのそれほど明白ではない例は、逆相関行列の分散インフレ係数と逆共分散行列の部分相関です。 ただし、文献で直接取り上げられていないのは、これらの行列の行列式を解釈する方法です。行列式は他の種類の行列に対しても頻繁に計算されるため、行列に関する多くの情報が見つかると予想していましたが、StackExchangeフォーラムと他のインターネットの両方のカジュアルな検索ではほとんど結果を出せませんでした。私が遭遇したほとんどの言及は、主成分分析(PCA)やホテリングの検定など、他の統計検定やアルゴリズムを計算するプロセスの単一ステップとして行列式を使用することに関係しています。単独でこれらの決定要因を解釈する方法に直接対処するものはありません。それらがデータマイニングに関する文献で頻繁に議論されない実際的な理由はありますか?さらに重要なことには、それらは、スタンドアロンの方法で有用な情報を提供しますか?その場合、それぞれの決定要因をどのように解釈できますか?私は行列式が線形変換によって誘発される符号付きボリュームの一種であることを理解しているので、これらの特定の行列式の行列式は、セット全体にわたる共分散や相関などのある種の体積測定を意味するのではないかと疑います( 2つの属性または変数間の通常の共分散および相関とは対照的に)。それはまた、それらの逆がどのようなボリュームを表すかという疑問を投げかけます。私はこのトピックや、さらに推測するのに必要な重い行列の計算についてはあまり詳しくありませんが、4種類すべての行列とその行列式をコーディングすることができます。私の質問は迫っていません、しかし、長期的には、これらのマトリックスとその決定要因を探索的データマイニングプロセスに定期的に含めることの価値があるかどうかを判断する必要があります。これらの特定の言語では、1対1の2変量の方法で共分散と相関を計算する方が安くなりますが、費用を正当化するより深い洞察を導き出すことができれば、余計なことをせずに行列式計算を実装します。プログラミングリソース。前もって感謝します。プログラミングリソースの観点から費用を正当化するより深い洞察を引き出すことができる場合は、さらに一歩進んで行列式計算を実装します。前もって感謝します。プログラミングリソースの観点から費用を正当化するより深い洞察を引き出すことができる場合は、さらに一歩進んで行列式計算を実装します。前もって感謝します。

2
共分散の全法則の解釈
せて同一の確率空間上に定義された確率変数であるとの共分散させ、X及びYが有限で、合計共分散/共分散分解式状態の次に法則: Covを(X 、Y )= E [ Covを(X 、Y | Z )] ⏟(i) + Cov [ E(X | Z )、E(Y | Z )]X,Y,ZX,Y,ZX,Y,ZXXXYYY の解釈は何であると?Cov(X,Y)=E[Cov(X,Y|Z)](i)+Cov[E(X|Z),E(Y|Z)](ii)Cov(X,Y)=E[Cov(X,Y|Z)]⏟(i)+Cov[E(X|Z),E(Y|Z)]⏟(ii)\begin{align} \text{Cov}(X,Y)=\underbrace{\mathbb{E}\big[\text{Cov}(X,Y\lvert Z)\big]}_{\text{(i)}}+\underbrace{\text{Cov}\big[\mathbb{E}(X\lvert Z),\mathbb{E}(Y\lvert Z)\big]}_{\text{(ii)}} \end{align}(ⅱ)(i)(i)\text{(i)}(ii)(ii)\text{(ii)} 私の考えは:(II)は、2つの条件付き期待値がランダム変数として自分自身を見ることができますに、私はまた、この設定によって示すことができる全分散/分散分解式の法則を一般化したものであることを知っている、解釈ばらつきの次にであるにより説明によって、および原因不明。しかし、上記の(i)と(ii)の共分散式の正しい解釈は何ですか?ウィキペディアは、あまり満足のいくものではない簡単な説明を提供しています。Y Z ZX=YX=YX=YYYYZZZZZZ


1
加重不偏標本共分散の正しい方程式
私は、加重不偏サンプル共分散を計算するための正しい方程式を探しています。このテーマではインターネットソースは非常にまれであり、それらはすべて異なる方程式を使用します。 私が見つけた最もありそうな方程式はこれです: qjk=∑Ni=1wi(∑Ni=1wi)2−∑Ni=1w2i∑Ni=1wi(xij−x¯j)(xik−x¯k).qjk=∑i=1Nwi(∑i=1Nwi)2−∑i=1Nwi2∑i=1Nwi(xij−x¯j)(xik−x¯k).q_{jk}=\frac{\sum_{i=1}^{N}w_i}{\left(\sum_{i=1}^{N}w_i\right)^2-\sum_{i=1}^{N}w_i^2} \sum_{i=1}^N w_i \left( x_{ij}-\bar{x}_j \right) \left( x_{ik}-\bar{x}_k \right) . 送信元:https : //en.wikipedia.org/wiki/Sample_mean_and_sample_covariance#Weighted_samples もちろん、重み付けされた(バイアスされていない)サンプル平均を事前に計算する必要があります。 しかし、私は他のいくつかの式を見つけました: qjk=1∑Ni=1wi)−1∑Ni=1wi(xij−x¯j)(xik−x¯k).qjk=1∑i=1Nwi)−1∑i=1Nwi(xij−x¯j)(xik−x¯k).q_{jk}= \frac{1}{\sum_{i=1}^N w_i)-1}\sum_{i=1}^N w_i \left( x_{ij}-\bar{x}_j \right) \left( x_{ik}-\bar{x}_k \right) . または、標準の共分散式を使用しているが、サンプル平均の代わりに加重サンプル平均を使用しているソースコードや学術論文を見たこともあります... 誰かが私を助けて光を当てることができますか? / EDIT:私の重みは、データセット内のサンプルの観測値の数です。したがって、weights.sum()= n

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.