タグ付けされた質問 「correlation」

変数のペア間の線形関連の度合いの尺度。

1
相関性の高い変数の和と差の参照はほとんど相関性がない
私が書いた論文では、とではなくランダム変数とをモデル化して、と相関が高く、分散が等しい場合(アプリケーションでのように)に発生する問題を効果的に排除しています。レフェリーは私にレファレンスを提供してほしいと思っています。私はそれを簡単に証明できますが、アプリケーションジャーナルであるため、単純な数学的導出への参照を好みます。X − Y X Y X Yバツ+ YX+YX+Yバツ− YX−YX-YバツXXYYYバツXXYYY 誰かが適切な参照について何か提案がありますか?TukeyのEDAブック(1977)に合計と差について何かがあると思っていましたが、見つかりません。

4
YとXの相関関係のおかげで、説明された分散でゲインをどのように提示するのですか?
単純な線形相関を1年生に(視覚的に)説明する方法を探しています。 視覚化する古典的な方法は、Y〜X散布図に直線回帰直線を与えることです。 最近、プロットに3つの画像を追加してこのタイプのグラフィックスを拡張するというアイデアに思いつきました:y〜1の散布図、次にy〜xの散布図、resid(y〜x)〜x、そして最後に残差の(y〜x)〜1(平均値の中心) このような視覚化の例を次に示します。 そしてそれを生成するRコード: set.seed(345) x <- runif(50) * 10 y <- x +rnorm(50) layout(matrix(c(1,2,2,2,2,3 ,3,3,3,4), 1,10)) plot(y~rep(1, length(y)), axes = F, xlab = "", ylim = range(y)) points(1,mean(y), col = 2, pch = 19, cex = 2) plot(y~x, ylab = "", ) abline(lm(y~x), col = 2, lwd = …

4
MANOVAと従属変数間の相関関係:どれほど強すぎるか?
MANOVAの従属変数は、「相関が強すぎる」べきではありません。しかし、どれだけ強い相関が強すぎるのでしょうか?この問題について人々の意見を得ることは興味深いでしょう。たとえば、以下の状況でMANOVAを続行しますか? Y1およびY2は、およびと相関していますr = 0.3r=0.3r=0.3p &lt; 0.005p&lt;0.005p<0.005 Y1とY2は、およびと相関しています。r = 0.7r=0.7r=0.7p = 0.049p=0.049p=0.049 更新 @onestopへの応答としてのいくつかの代表的な引用: 「MANOVAは、DV間に中程度の相関がある状況でうまく機能します」(San Francisco State Uniからのコースノート) 「従属変数には相関関係があり、これはManovaに適しています」(米国EPA統計入門) 「従属変数は概念的に関連している必要があり、それらは低レベルから中程度のレベルで互いに相関している必要があります。」(北アリゾナ大学からのコースノート) 「約.3から約.7に相関するDVは適格です」(Maxwell 2001、Journal of Consumer Psychology) nb Y1とY2の間の相互相関が独立変数のすべてのレベルで同じであるという仮定については言及していません。相互相関の実際の大きさに関するこの見かけ上の灰色の領域についてのみです。

2
Rの順序付けられたカテゴリカルデータ間の相関関係を(視覚的に)すばやく評価しますか?
アンケートのさまざまな質問への回答間の相関関係を探しています(「うーん、質問11への回答が質問78の回答と相関しているかどうかを見てみましょう」)。すべての回答はカテゴリ型です(そのほとんどは「非常に不幸」から「非常に満足」までの範囲です)が、いくつかの回答は異なるセットです。それらのほとんどは序数と見なすことができるので、ここでこのケースを考えてみましょう。 私は商用統計プログラムにアクセスできないので、Rを使用する必要があります。 Rattle(Rのフリーウェアデータマイニングパッケージ、非常に気の利いたもの)を試してみましたが、残念ながらカテゴリカルデータはサポートされていません。私が使用できるハックの1つは、「非常に不幸」ではなく数値(1..5)を含む調査のコード化されたバージョンをRにインポートして、それらが数値データであるとラトルに信じさせることです。 私は散布図を作成し、ドットサイズを各ペアの数値の数に比例させることを考えていました。グーグルで検索した後、http: //www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/を見つけましたが、(私にとって)非常に複雑に見えます。 私は統計学者ではありませんが(プログラマーです)、この件について少し読んだことがあります。私が正しく理解していれば、ここではスピアマンのrhoが適切でしょう。 だから、急いでいる人のための質問の短いバージョン:Rでスピアマンのローをすばやくプロットする方法はありますか?プロットは、数値の行列よりも簡単です。これは、目を簡単に見ることができ、材料にも含めることができるためです。 前もって感謝します。 PS私はこれをメインのSOサイトに投稿するか、ここに投稿するかについてしばらく考えました。両方のサイトでR相関を検索した後、このサイトは質問により適していると感じました。

4
相関行列のゼロ固有値のための十分かつ必要な条件
確率変数X iが与えられ、確率分布P (X 1、… 、X n)がある場合、相関行列C i j = E [ X i X j ] − E [ X i ] E [ X j ]は正の半明確、すなわちその固有値は正またはゼロです。んnnバツ私XiX_iP(X1、… 、Xん)P(X1,…,Xn)P(X_1,\ldots,X_n)C私はj=E[ X私バツj] −E[ X私]E[ Xj]Cij=E[XiXj]−E[Xi]E[Xj]C_{ij}=E[X_i X_j]-E[X_i]E[X_j] Cがm個のゼロ固有値を持つ ために必要かつ/または十分であるの条件に興味があります。:例えば、十分条件では確率変数が独立していないということですΣ I 、U I X I = 0、いくつかの実数uの私。たとえば、P (X 1、… 、X n)= δ (X 1 − …

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 &lt;- function(x,z,sx=0.3,sz=0.4) { x &lt;- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n &lt;- 500 x &lt;- runif(n)/20;z &lt;- runif(n); xs &lt;- seq(0,1,length=30)/20;zs &lt;- seq(0,1,length=30) pr &lt;- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth &lt;- matrix(test1(pr$x,pr$z),30,30) f &lt;- test1(x,z) y &lt;- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

5
共分散の定義に関する直感
私は2つの確率変数の共分散をよりよく理解しようとし、それを最初に考えた人が統計で日常的に使用されている定義に到達した方法を理解しようとしました。私はそれをよりよく理解するためにウィキペディアに行きました。記事から、適切な候補メジャーまたは数量には次のプロパティが必要です。Co v (X、Y)Cov(バツ、Y)Cov(X,Y) 2つの確率変数が類似している場合(つまり、一方が増加し、もう一方が増加し、一方が減少すると、もう一方も増加する)、正の符号が表示されます。 また、2つの確率変数が逆に類似している場合(つまり、1つが増加すると、もう1つの確率変数が減少する傾向がある場合)には、負の符号を付けます。 最後に、2つの変数が互いに独立している場合(つまり、それらが互いに共変動しない場合)は、この共分散量をゼロ(またはおそらく非常に小さい)にする必要があります。 上記のプロパティから、を定義します。私の最初の質問は、なぜがこれらのプロパティを満足するのかが完全に明らかではないということです。私たちが持っている特性から、「導関数」のような方程式が理想的な候補になることを期待していました。たとえば、「Xの変化が正の場合、Yの変化も正でなければならない」などのようなものです。また、なぜ平均との違いを「正しい」こととするのですか?C o v (X 、Y )= E [ (X - E [ X ] )(Y - E [ Y ] )]Co v (X、Y)Cov(バツ、Y)Cov(X,Y)Co v (X、Y)= E[ (X− E[ X] )(Y− E[ Y] )]Cov(バツ、Y)=E[(バツ−E[バツ])(Y−E[Y])]Cov(X,Y) = E[(X-E[X])(Y-E[Y])] より接線的ですが、それでも興味深い質問ですが、それらの特性を満たし、さらに意味があり、有用であった別の定義がありますか?なぜこの定義を最初から使用しているのか誰も疑問に思わないので、私はこれを尋ねています数学的好奇心と思考)。受け入れられた定義は、私たちが持つことができる「最良の」定義ですか? これらは、受け入れられた定義が理にかなっている理由についての私の考えです(それは直感的な議論になるだけです): してみましょう(すなわち、それはいくつかの時点でいくつかの他の値にいくつかの値から変更)、変数Xのためのいくつかの違いがあります。同様に、を定義します。ΔΔバツΔバツ\Delta_XΔYΔY\Delta_Y ある時点で、それらが関連しているかどうかを計算することができます: よ私グラムn (Δバツ⋅ ΔY)s私gん(Δバツ⋅ΔY)sign(\Delta_X \cdot \Delta_Y) …

2
平均相関係数の意義
免責事項:この質問が別の質問と非常に類似していると思われる場合は、統合してよかったと思います。しかし、他に満足のいく答えが見つからなかったため(コメントや賛成投票の「評判」はまだありません)、自分で新しい質問をするのが最善だと思いました。 私の質問はこれです。12人の被験者それぞれについて、独立変数Xの6つのレベル間の相関係数(スピアマンのrho)と、従属変数Yの対応する観測値を計算しました(注:Xのレベルは被験者間で等しくありません)。帰無仮説は、一般的な母集団では、この相関はゼロに等しいということです。この仮説を2つの方法でテストしました。 私の12人の被験者から得られた相関係数に1標本t検定を使用します。 XのレベルとYの観測値を中央に配置し、参加者ごとに、mean(X)= 0とmean(Y)= 0を設定して、集計データ(Xの72レベルとYの観測値72)の相関を計算します。 。 ここで、相関係数の操作について(ここや他の場所で)読むことから、最初のアプローチが有効かどうか疑い始めました。特に、平均的な相関係数のt検定として(見かけ上)提示された次の方程式がいくつかの場所でポップアップするのを見ました。 t=rSEr=n−2−−−−−√1−r2−−−−−√t=rSEr=n−21−r2t = \frac{r}{SE_{r}} = \frac{\sqrt{n-2}}{\sqrt{1-r^{2}}} ここで、は平均の相関係数(最初に被験者ごとの係数でフィッシャーの変換を使用してこれを取得したと仮定します)であり、nは観測数です。直観的には、被験者間変動の測定値が含まれていないため、これは私には間違っているようです。つまり、3つの相関係数がある場合、[0.1、0.5、0.9]、[0.45 0.5 0.55]、または同じ平均値(およびn = 3)の値の範囲にかかわらず、同じt統計が得られます。rrrnnnn=3n=3n=3 したがって、上の式は実際には相関係数の平均の有意性をテストするときではなく、2つの変数の観測に基づいて単一の相関係数の有意性をテストするときに当てはまるのではないかと思います。nnn ここの誰かがこの直感を確認したり、なぜそれが間違っているのか説明したりできますか?また、この式が私のケースに当てはまらない場合、誰かが正しいアプローチを知っていますか?または、私のテスト番号2はすでに有効ですか?どんな助けでも大歓迎です(私が見逃したまたは誤解している可能性がある以前の回答へのポインタを含みます)。


2
相関係数の比較
2つのデータセットがあり、78と35のサンプルで約250.000の値があります。一部のサンプルは家族の一員であり、これはデータに影響を与える可能性があります。ペアワイズ相関を計算しましたが、0.7と0.95の間で変動しますが、ファミリー内とファミリー間で相関係数に有意差があるかどうか知りたいのですが?これを行う最良の方法は何ですか?ありがとう


2
最も強く関連付けられている予測子がバイナリの場合に回帰モデルの作成を開始する方法
私は、すなわち3つの変数の365観測を含むデータセットを持っているpm、tempとrain。次にpm、他の2つの変数の変化に応じての動作を確認したいと思います。私の変数は: pm10 =応答(依存) temp =予測子(独立) rain =予測子(独立) 以下は、私のデータの相関行列です。 &gt; cor(air.pollution) pm temp rainy pm 1.00000000 -0.03745229 -0.15264258 temp -0.03745229 1.00000000 0.04406743 rainy -0.15264258 0.04406743 1.00000000 問題は、私が回帰モデルの構築を研究していたとき、加法的方法は応答変数に最も関連性の高い変数から始めることであると書かれていました。私のデータセットrainはpm(と比較してtemp)と高度に相関していますが、同時にダミー変数(rain = 1、no rain = 0)であるため、どこから始めればよいか手掛かりが得られます。2つの画像を添付しました。最初の画像はデータの散布図で、2番目の画像はpm10vsの散布図rainです。また、pm10vsの散布図を解釈することもできませんrain。誰かが私を始める方法を手伝ってくれる?

1
非相関性が独立性を意味するのはどの分布ですか?
古くからある統計では、「無相関は独立を意味するものではありません」としています。通常、このリマインダーは、「2つの変数が一緒に正規分布しているにもかかわらず、無相関が独立性を暗示している」という心理的に心地よい(そして科学的に正しい)ステートメントで補足されます。 幸せな例外の数を1から2に増やすことができます。2つの変数がベルヌーイ分布である場合、再び、無相関は独立性を意味します。場合とYは 2 Bermoulli RVの、あるX 〜B (q個のX)、XXXYYY、我々が持っているため、 P (X = 1 )= E (X )= Q 、X、および同様のための Y、それらの共分散でありますX∼B(qx),Y∼B(qy)X∼B(qx),Y∼B(qy)X \sim B(q_x),\; Y \sim B(q_y)P(X=1)=E(X)=qxP(X=1)=E(X)=qxP(X=1) = E(X) = q_xYYY Cov(X,Y)=E(XY)−E(X)E(Y)=∑SXYp(x,y)xy−qxqyCov⁡(X,Y)=E(XY)−E(X)E(Y)=∑SXYp(x,y)xy−qxqy\operatorname{Cov}(X,Y)= E(XY) - E(X)E(Y) = \sum_{S_{XY}}p(x,y)xy - q_xq_y =P(X=1,Y=1)−qxqy=P(X=1∣Y=1)P(Y=1)−qxqy=P(X=1,Y=1)−qxqy=P(X=1∣Y=1)P(Y=1)−qxqy = P(X=1,Y=1) - q_xq_y = P(X=1\mid Y=1)P(Y=1)-q_xq_y =(P(X=1∣Y=1)−qx)qy=(P(X=1∣Y=1)−qx)qy= \Big(P(X=1\mid Y=1)-q_x\Big)q_y 無相関のために、共分散がゼロである必要があります。 Cov(X,Y)=0⇒P(X=1∣Y=1)=P(X=1)Cov⁡(X,Y)=0⇒P(X=1∣Y=1)=P(X=1)\operatorname{Cov}(X,Y) = 0 …

5
共線変数をどうするか
免責事項:これは宿題プロジェクトのためのものです。 私はいくつかの変数に応じて、ダイヤモンドの価格に最適なモデルを考え出そうとしていますが、今のところかなり良いモデルを持っているようです。ただし、明らかに同一線上にある2つの変数に遭遇しました。 &gt;with(diamonds, cor(data.frame(Table, Depth, Carat.Weight))) Table Depth Carat.Weight Table 1.00000000 -0.41035485 0.05237998 Depth -0.41035485 1.00000000 0.01779489 Carat.Weight 0.05237998 0.01779489 1.00000000 TableとDepthは互いに依存していますが、それでも予測モデルに含めたいと思います。ダイヤモンドについて調べてみたところ、表と深さは、ダイヤモンドの上部を横切る長さと、ダイヤモンドの上部から下部までの距離です。ダイヤモンドのこれらの価格は美しさに関連しているようであり、美しさは関連している比率であると思われるので、私はそれらの比率を含めるつもりでした、たとえば価格を予測するには、 D e p t hを使用します。共線変数を処理するためのこの標準的な手順ですか?そうでない場合、何ですか?TableDepthTableDepth\frac{Table}{Depth} 編集:これは、深さ〜テーブルのプロットです:

2
分散が等しくない2標本のt検定に対応するベイジアンとは何ですか?
私は、分散が等しくない2標本t検定(ウェルチ検定)の対応するベイズ法を探しています。ホテリングのT統計のような多変量検定も探しています。参考に感謝します。 多変量の場合、と(z 1、⋯ 、z N)があり、y i(resp z i)は標本平均、標本標準偏差と数のショートカットですポイントの。我々は、点の数は、すべてのために同じデータセット全体にわたって一定、標準偏差であると仮定することができ、Y I(それぞれのZ I)のサンプル手段は、Y I(それぞれのZはI(y1,⋯,yN)(y1,⋯,yN)(y_1,\cdots,y_N)(z1,⋯,zN)(z1,⋯,zN)(z_1,\cdots,z_N)yiyiy_iziziz_iyiyiy_iziziz_iyiyiy_iziziz_i)は相関しています。標本平均をプロットすると、それらは互いに続き、それらを接続することにより、滑らかに変化する関数が得られます。現在、いくつかの部分に機能がと一致するZ機能、しかしため他人にそれはないmは電子N (Y Iを)- M eはnは(Z I)yyyzzzが大きくなります。このことを定量化したいと思います。 mean(yi)−mean(zi)std(yi)+std(zi)mean(yi)−mean(zi)std(yi)+std(zi)\frac{mean(y_i)-mean(z_i)}{std(y_i)+std(z_i)}

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.