タグ付けされた質問 「correlation」

変数のペア間の線形関連の度合いの尺度。

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
3つのランダム変数の相関の限界
x、y、zの 3つのランダム変数がありますx 、y、zx,y,zx,y,z。3つの変数間の3つの相関は同じです。あれは、 ρ = cor(x 、y)= cor(x 、z)= cor(y、z)ρ=cor(x,y)=cor(x,z)=cor(y,z)\rho=\textrm{cor}(x,y)=\textrm{cor}(x,z)=\textrm{cor}(y,z) \ rhoに与えることができる最も厳しい限界は何ρρ\rhoですか?

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
因果関係なしで相関が役立つのはいつですか?
多くの統計学者の言うペットは「相関は因果関係を意味しない」です。これは確かに真実ですが、ここで暗示されていると思われることの1つは、相関にはほとんどまたはまったく価値がないことです。これは本当ですか?2つの変数が相関していることを知ることは無意味ですか? それが想像できない。私は予測分析に恐ろしくは慣れていませんXが、の予測子である場合、因果関係に関係なく、YにY基づいての将来の値を予測するのに役立つようですX。 相関の値を見るのは間違っていますか?そうでない場合、統計学者またはデータ科学者はどのような状況で因果関係なく相関を使用できますか?

2
ランダムウォークが相互相関しているのはなぜですか?
平均して、ピアソン相関係数の絶対値は、ウォークの長さに関係なく、任意のペアの独立したランダムウォークに近い定数であることがわかりました。0.560.42 誰かがこの現象を説明できますか? ランダムなシーケンスのように、歩行の長さが長くなるにつれて相関が小さくなると予想しました。 私の実験では、ステップ平均0とステップ標準偏差1のランダムガウスウォークを使用しました。 更新: データをセンタリングするのを忘れていたので、0.56代わりにでした0.42。 相関を計算するPythonスクリプトは次のとおりです。 import numpy as np from itertools import combinations, accumulate import random def compute(length, count, seed, center=True): random.seed(seed) basis = [] for _i in range(count): walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) ))) if center: walk -= np.mean(walk) basis.append(walk / np.sqrt(np.dot(walk, walk))) …


7
相関は関連付けと同等ですか?
私の統計学教授は、「相関」という言葉は変量間の線形関係に厳密に適用されるのに対し、「連合」という言葉はあらゆるタイプの関係に広く適用されると主張しています。言い換えれば、彼は「非線形相関」という用語は矛盾表現であると主張している。 「相関と依存関係」に関するウィキペディアの記事のこのセクションで作成できることから、ピアソン相関係数は2つの変量間の関係の「線形性」の程度を説明しています。これは、「相関」という用語が実際には線形関係にのみ適用されることを示唆しています。 一方、「非線形相関」をグーグルですばやく検索すると、この用語を使用する多くの公開論文が見つかります。 私の教授は正しいですか、それとも「相関関係」は単に「連合」の同義語ですか?

2
相関はデータの定常性を前提としていますか?
市場間分析は、異なる市場間の関係を見つけることにより、市場の行動をモデル化する方法です。多くの場合、相関関係は、S&P 500と30年物米国債などの2つの市場間で計算されます。これらの計算は多くの場合、価格データに基づいていないため、定常時系列の定義に適合しないことは誰にとっても明らかです。 (代わりにリターンを使用して)可能な解決策はありませんが、データが非定常である相関の計算は有効な統計計算でもありますか? このような相関計算はやや信頼できない、または単なるナンセンスだと思いますか?

7
行列の列間の線形依存性のテスト
行列式がゼロのセキュリティリターンの相関行列があります。(サンプル相関行列と対応する共分散行列は理論的には正定でなければならないため、これは少し驚くべきことです。) 私の仮説は、少なくとも1つの証券が他の証券に線形に依存しているということです。Rに線形依存関係の各列を順番にテストする関数がありますか? たとえば、1つのアプローチは、相関行列を一度に1つのセキュリティで構築し、各ステップで行列式を計算することです。行列式= 0の場合、他の証券の線形結合である証券を特定したため停止します。 そのような行列の線形依存性を特定する他の技術が評価されます。

3
Rのピアソン相関のp値を見つける
Rのピアソン相関のp値を見つけることは可能ですか? ピアソン相関を見つけるために、私は通常これを行います col1 = c(1,2,3,4) col2 = c(1,4,3,5) cor(col1,col2) # [1] 0.8315218 しかし、どのようにしてこのp値を見つけることができますか?


3
直交、相関、独立の関係は何ですか?
計画されたコントラストを使用して一元配置分散分析で異なる手段を見つけるとき、それらが無相関であり、タイプIエラーが膨らまないようにするために、制約は直交する必要があるという記事を読みました。 どのような状況でも、直交が無相関を意味する理由はわかりません。その視覚的/直感的な説明が見つからないため、これらの記事/回答を理解しようとしました https://www.psych.umn.edu/faculty/waller/classes/FA2010/Readings/rodgers.pdf 統計の文脈で直交とはどういう意味ですか? しかし、私には、彼らは互いに矛盾しています。最初は、2つの変数が無相関および/または直交の場合、それらは線形独立であるが、それらが線形独立であるという事実は、それらが無相関および/または直交であることを意味しないと言います。 2番目のリンクには、「直交は無相関を意味する」、「XとYが独立している場合は直交であるが、逆は成り立たない」などの回答があります。 2番目のリンクの別の興味深いコメントは、2つの変数間の相関係数がこれらの変数に対応する2つのベクトル間の角度のコサインに等しいことを示しています。これは、2つの直交ベクトルが完全に無相関であることを意味します(最初の記事とは異なります)クレーム)。 それでは、独立性、直交性、相関関係の本当の関係は何ですか?たぶん私は何かを見逃したが、それが何であるかを見つけることができません。

5
混合線形モデルで多重共線性をテストして回避する方法は?
現在、いくつかの混合効果線形モデルを実行しています。 Rでパッケージ「lme4」を使用しています。 私のモデルの形式は次のとおりです。 model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) モデルを実行する前に、予測子間の可能な多重共線性をチェックしました。 私はこれをしました: 予測子のデータフレームを作成します dummy_df <- data.frame(predictor1, predictor2) 「cor」関数を使用して、予測子間のピアソン相関を計算します。 correl_dummy_df <- round(cor(dummy_df, use = "pair"), 2) 「correl_dummy_df」が0.80より大きい場合、predictor1とpredictor2の相関が高すぎるため、モデルに含まれていないと判断しました。 読書を行うと、多重共線性をチェックするより客観的な方法が現れます。 誰にもこれに関するアドバイスはありますか? 「Variance Inflation Factor(VIF)」は、1つの有効な方法のようです。 VEDは、AEDパッケージ(非クラン)の関数「corvif」を使用して計算できます。パッケージはhttp://www.highstat.com/book2.htmにあります。このパッケージは、次の書籍をサポートしています。 Zuur、AF、Ieno、EN、Walker、N.、Saveliev、AA&Smith、GM2009。混合効果モデルとエコロジーの拡張、R、第1版。スプリンガー、ニューヨーク。 一般的な経験則のように見えますが、VIFが5より大きい場合、予測子間の多重共線性は高くなります。 VIFの使用は、単純なピアソン相関よりも堅牢ですか? 更新 興味深いブログを見つけました: http://hlplab.wordpress.com/2011/02/24/diagnosing-collinearity-in-lme4/ ブロガーは、lme4パッケージのモデルのVIFを計算するための便利なコードを提供します。 コードをテストしましたが、うまく機能します。その後の分析で、モデルの多重共線性は問題ではないことがわかりました(すべてのVIF値<3)。これは、以前にいくつかの予測子間の高いピアソン相関関係を発見したことを考えると、興味深いものでした。

5
コピュラの入門書
しばらくの間、私はセミナーのためにコピュラに関する良い入門書を探していました。私は理論的な側面について話す多くの資料を見つけていますが、それは良いことですが、それらに移る前に、このトピックに関する優れた直観的な理解を構築したいと考えています。 誰もが初心者に良い基盤を提供する良い論文を提案できますか(私は統計の1-2コースを持ち、周辺、多変量分布、逆変換などを合理的な範囲で理解しました)?

1
多重相関係数
Iは、複数の相関の幾何学的な意味に興味RRR決意するのと係数R2R2R^2回帰におけるyi=β1+β2x2,i+⋯+βkxk,i+ϵiyi=β1+β2x2,i+⋯+βkxk,i+ϵiy_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i 、またはベクトル表記で、 y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon} ここで、設計行列XX\mathbf{X}有するnnn行およびkkk列を、そのうちの最初のものであるx1=1nx1=1n\mathbf{x}_1 = \mathbf{1}_n、切片に相当するが、その1Sのベクトルβ1β1\beta_1。 ジオメトリは、k次元の可変空間ではなく、nnn次元の対象空間でより興味深いものです。帽子行列を定義します。kkk H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top これは、の列空間への正射影ですXX\mathbf{X}。つまり、各変数x iを表すk個のベクトルが 広がる原点を通る平面です。その最初は1 nです。次いで、Hは観測された応答のベクトル突出Yを平坦にその「影」に、近似値のベクトルY = H yは、と我々は残差のベクトルを参照投影経路に沿って見た場合に、E = yと- ykkkxixi\mathbf{x}_i1n1n\mathbf{1}_nHH\mathbf{H}yy\mathbf{y}y^=Hyy^=Hy\mathbf{\hat{y}} = \mathbf{Hy}e=y−y^e=y−y^\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}三角形の3番目の辺を形成します。これにより、幾何学的な解釈への2つのルートが提供されR2R2R^2ます。 複数の相関係数の二乗RRRとの間の相関として定義され、yy\mathbf{y}およびY。これは、角度の余弦として幾何学的に表示されます。y^y^\mathbf{\hat{y}} ベクトルの長さの点で:例えば、SSresidual=∑ni=1e2i=∥e∥2SSresidual=∑i=1nei2=‖e‖2SS_\text{residual} = …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.