統計とビッグデータ correlation

3

私は行列、遺伝子の数であり、患者の数です。このようなデータを扱った人なら誰でも、は常によりも大きいことを知っています。特徴選択を使用して、をより妥当な数に下げましたが、はまだより大きいです。p n p n p p nn × pn×pn\times ppppんnnpppんnnppppppんnn 遺伝子プロファイルに基づいて患者の類似性を計算したいと思います。ユークリッド距離を使用することもできますが、マハラノビスは変数間の相関を考慮に入れるので、より適切に見えます。（この投稿で述べたように）問題は、マハラノビス距離、特に共分散行列が場合に機能しないことです。Rでマハラノビス距離を実行すると、次のエラーが発生します。n < pn<pn < p Error in solve.default(cov, ...) : system is computationally singular: reciprocal condition number = 2.81408e-21 これまでにこれを解決するために、PCAを使用しました。遺伝子を使用する代わりに、コンポーネントを使用しました。これにより、マハラノビス距離を計算できるようです。5つの成分は分散の約80％を表すため、ます。n > pn>pn > p 私の質問は次のとおりです。PCAを使用して患者間のマハラノビス距離を有意義に取得できますか、それとも不適切ですか？ときに機能する代替距離メトリックスはありますか？また、変数間に多くの相関関係がありますか？nn < pn<pn < pんnn

10 correlation pca genetics covariance distance-functions

5

2つの非定常時系列を比較して相関を決定する方法は？

時間の経過に伴う死亡時の年齢の中央値をプロットする2つのデータシリーズがあります。どちらのシリーズも、長期にわたる死亡年齢の増加を示していますが、一方は他方よりはるかに低くなっています。下のサンプルの死亡年齢の増加が上のサンプルのそれと大幅に異なるかどうかを確認したいと思います。以下に、年（1972年から2009年まで）の順に小数点以下3桁に四捨五入したデータを示します。 Cohort A 70.257 70.424 70.650 70.938 71.207 71.263 71.467 71.763 71.982 72.270 72.617 72.798 72.964 73.397 73.518 73.606 73.905 74.343 74.330 74.565 74.558 74.813 74.773 75.178 75.406 75.708 75.900 76.152 76.312 76.558 76.796 77.057 77.125 77.328 77.431 77.656 77.884 77.983 Cohort B 5.139 8.261 6.094 12.353 11.974 11.364 …

10 time-series correlation stata

3

Rを使用して相関が所定の値に等しいという仮説をテストする方法は？

2つのベクトルの相関が特定の数値、たとえば0.75に等しいという仮説をテストする関数はありますか？cor.testを使用すると、cor = 0をテストでき、0.75が信頼区間内にあるかどうかを確認できます。しかし、cor = 0.75のp値を計算する関数はありますか？ x <- rnorm(10) y <- x+rnorm(10) cor.test(x, y)

10 r correlation

1

回帰勾配を比較することでグループ間の相関を比較できますか？

でこの質問、彼らは（例えば、女性対男性のように）二つの独立したグループのためのピアソンrを比較する方法を尋ねます。返信とコメントは2つの方法を提案しました： rの「z変換」を使用して、フィッシャーのよく知られた式を使用します。勾配の比較を使用します（回帰係数）。後者は、飽和線形モデルを介して簡単に実行できます。ここで、とは相関変数で、は2つのグループを示すダミー（0対1）変数です。（相互作用項係数）の大きさは、モデルが2つのグループで個別に実行され後の係数の差であり、その（）の有意性は、グループ間の勾配の差の検定です。Y= a + b X+ c G + dバツGY=a+bバツ+cG+dバツGY = a + bX + cG + dXGバツバツXYYYGGGdddbbbY= a + b XY=a+bバツY = a + bXddd さて、勾配または回帰係数。まだ相関係数ではありません。しかし、我々は標準であればとYを - 別に二つのグループに-そして、dは差に等しくなりますグループ1のRマイナスRグループ0で、したがって、その意義は、2つの相関の違いをテストします：我々しているテストの斜面が、相関関係をテストしているように見えます。バツバツXYYYddd 私が書いたのは正しいですか？はいの場合、相関のより良いテストである質問が残っています-これは説明されたものですか、それともフィッシャーの質問ですか？それらは同じ結果をもたらさないからです。どう思いますか？後で編集：@Wolfgangの返信に感謝しますが、フィッシャーのテストが上記の標準化された勾配の比較アプローチよりもrのテストの方が正しい理由を理解できないと思います。したがって、より多くの回答を歓迎します。ありがとうございました。

10 regression correlation hypothesis-testing

3

従属変数との相関が低い独立変数は有意な予測因子になることができますか？

8つの独立変数と1つの従属変数があります。私は相関行列を実行しましたが、そのうちの5つはDVとの相関が低くなっています。次に、段階的多重回帰を実行して、IVの一部またはすべてがDVを予測できるかどうかを確認しました。回帰は、2つのIVだけがDVを予測できることを示し（ただし、分散の約20％しか説明できない）、SPSSはモデルから残りを削除しました。私の監督者は、相関の強さが原因で、回帰モデルでより多くの予測子を見つけるべきだったため、回帰を正しく実行していないと考えています。しかし、相関関係は小さかったので、私の質問は次のとおりです。IVとDVがほとんど相関しない場合でも、IVは依然としてDVの優れた予測因子になり得ますか？

10 regression correlation statistical-significance feature-selection predictor

1

相関する確率変数の差の限界

2つの高度に相関する確率変数およびYが与えられた場合、その差の確率を制限します。X − Y | ある量を超える： P （| X − Y | > K ）< δバツXXYYY| バツ− Y||X−Y| |X - Y| P（| X− Y| >K）< δP(|X−Y|>K)<δ P( |X - Y| > K) < \delta 簡単にするために、次のことを前提とします。相関係数が"高"であることが知られている、と言う： ρX,Y=covar(X,Y)/σXσY≥1−ϵρX,Y=covar(X,Y)/σXσY≥1−ϵ \rho_{X,Y}= {covar(X,Y)} / {\sigma_X \sigma_Y} \geq 1 - \epsilon ゼロ平均である： μ X = μ …

9 correlation mathematical-statistics bounds

3

1または-1に等しい変量効果の相関関係をどうするか？

複雑な最大混合モデル（特定のデータとモデルのすべての可能な変量効果を推定する）を扱う場合、それほど珍しいことではありませんが、一部の変量効果の間で完全（+1または-1）またはほぼ完全な相関関係です。議論のために、次のモデルとモデルの要約を見てみましょう Model: Y ~ X*Cond + (X*Cond|subj) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects Random effects: Groups Name …

9 r correlation mixed-model lme4-nlme covariance-matrix

2

社会科学で発表されたほとんどの相関関係は信頼できないものであり、それに対して何をすべきか？[閉まっている]

休業。この質問は意見に基づいています。現在、回答を受け付けていません。この質問を改善してみませんか？この投稿を編集して、事実と引用で回答できるように質問を更新してください。 2年前休業。略奪的なジャーナルの実践を明らかにするための個人による「ごちゃまぜ」的な取り組みの重要であるにもかかわらず、社会科学研究の影には、より大きく、より根本的な脅威が迫っています（ただし、研究者が対処する必要のある複数の問題があります）。簡単に言うと、ある見解によると、250より小さいサンプルから導出された相関係数を信頼できない場合があります。信頼できる相関係数よりも、社会科学の測定値間の関係の存在、方向、および強さを推測するために依存するテストを見つけることは困難です。ただし、250ケース未満のデータから計算された相関係数に基づいて2つの構造間の関係について強い主張をしている査読済みレポートを見つけるのは難しくありません。社会科学が直面している現在の複製危機（上記の2番目のリンクを参照）を考慮して、相関係数の安定化に関するこのレポートを（少なくとも一部の社会科学分野の基準によって）大きなサンプルでのみどのように表示する必要がありますか？ピアレビューされた社会科学研究の壁の別の亀裂ですか、それとも、そのプレゼンテーションで誇張されてきた比較的些細な問題ですか？この質問に対する正解は1つではない可能性が高いので、代わりに、この質問に関するリソースを共有し、慎重に検討し、議論することができるスレッドを生成したいと思います（もちろん、丁寧に、そして丁重に）。

9 correlation methodology publication-bias

4

2つの相関関係が大幅に異なるかどうかを判断するにはどうすればよいですか？

2つのデータセット（B1、B2）のどちらが別のセット（A）とより適切に相関している（ピアソンr）かを判断します。すべてのデータセットに欠落データがあります。結果の相関が大幅に異なるかどうかをどのように判断できますか？たとえば、8426の値はAとB1の両方に存在し、r = 0.74です。8798はAとB2の両方に存在し、r = 0.72です。この質問は役立つかもしれないと思いましたが、答えはありません：あるシステムが別のシステムよりもはるかに優れていることを知る方法は？

9 hypothesis-testing correlation statistical-significance missing-data

2

データセットの平均を使用して相関を向上させることはできますか？

従属変数と独立変数を持つデータセットがあります。どちらも時系列ではありません。私は120の観察結果を持っています。相関係数は0.43 この計算の後、両方の変数の列を追加し、12観測ごとの平均を示します。その結果、2つの新しい列に108観測（ペア）が追加されます。これらの列の相関係数は0.77ですこのようにして相関を改善したようです。これは許可されていますか？平均を使用して、独立変数の説明力を増やしましたか？

9 regression correlation mean predictor cross-section

2

独立と相関の違いの実際の例

確率変数の独立性はゼロ相関を意味しますが、ゼロ相関が独立性を意味する必要はありません。相関関係がゼロであるにもかかわらず、依存関係を実証する数学的例がたくさんありました。この事実を裏付ける実例はありますか？

9 correlation independence intuition

1

線形変換への相関の不変性：

これは実際にはグジャラート語の基本計量経済学第4版（Q3.11）の問題の1つであり、相関係数は原点とスケールの変化に対して不変である、つまりここ、、、、は任意の定数です。corr(aX+b,cY+d)=corr(X,Y)corr(aX+b,cY+d)=corr(X,Y)\text{corr}(aX+b, cY+d) = \text{corr}(X,Y)aaabbbcccddd しかし、私の主な質問は次のとおりですとをペアの観測値とし、とが正の相関があると仮定します。つまり、です。は直感に基づいて負になることを知ってい。ただし場合、となるため、意味がありません。XXXYYYXXXYYYcorr(X,Y)>0corr(X,Y)>0\text{corr}(X,Y)>0corr(−X,Y)corr(−X,Y)\text{corr}(-X,Y)a=−1,b=0,c=1,d=0a=−1,b=0,c=1,d=0a=-1, b=0, c=1, d=0corr(−X,Y)=corr(X,Y)>0corr(−X,Y)=corr(X,Y)>0\text{corr}(-X,Y) = \text{corr}(X,Y) >0 誰かがそのギャップを指摘していただければ幸いです。ありがとう。

9 self-study correlation linear-algebra mathematical-statistics

3

無相関だが線形従属変数のセット

相関はないが線形従属である変数のセットを持つことは可能ですか？KKK すなわちおよび∑ K i = 1 a i x i = 0cor(xi,xj)=0cor(xi,xj)=0cor(x_i, x_j)=0∑Ki=1aixi=0∑i=1Kaixi=0 \sum_{i=1}^K a_ix_i=0 はいの場合、例を書くことができますか？編集：答えから、それは不可能であるということになります。それは、少なくとも可能であろうとここで、ρは、から推定推定された相関係数であるn個の変数のサンプルとvがある変数でありますx iとは無相関。P(|ρ^xi,xj−ρ^xi,v|<ϵ)P(|ρ^xi,xj−ρ^xi,v|<ϵ)\mathbb{P}(|\hat \rho_{x_i, x_j}-\hat \rho_{x_i, v}|<\epsilon)ρ^ρ^\hat\rhonnnvvvxixix_i x K = 1のようなものを考えていますK>>0xK=1K∑K−1i=1xixK=1K∑i=1K−1xix_K=\dfrac{1}{K} \sum_{i=1}^{K-1} x_i K>>0K>>0K>>0

9 correlation mathematical-statistics multicollinearity

1

主成分スコアに相関がないのはなぜですか？

仮説は、平均中心のデータの行列です。行列S = cov （A）はm × mで、m個の異なる固有値と、直交する固有ベクトルs 1、s 2 ... s mを持っています。AA\mathbf AS=cov(A)S=cov(A)\mathbf S=\text{cov}(\mathbf A)m×mm×mm\times mmmms1s1\mathbf s_1s2s2\mathbf s_2smsm\mathbf s_m 番目の主成分は、（何人かの人々は「スコア」と呼ん）ベクターであり、Z iは = A S Iを。言い換えると、これはAの列の線形結合であり、係数はSの i番目の固有ベクトルの成分です。iiizi=Asizi=Asi\mathbf z_i = \mathbf A\mathbf s_iAA\mathbf AiiiSS\mathbf S とz jがすべてのi ≠ jに対して無相関であることが判明する理由がわかりません。s iとs jが直交しているという事実から来ていますか？確かにそうではありません。なぜなら、B xとB yが相関するような行列Bと1組の直交ベクトルx、yを簡単に見つけることができるからです。zizi\mathbf z_izjzj\mathbf z_ji≠ji≠ji\neq jsisi\mathbf s_isjsj\mathbf s_jBB\mathbf Bx,yx,y\mathbf x, \mathbf yBxBx\mathbf …

9 correlation pca linear-algebra

3

与えられた相関関係を得るために2Dデータを並べ替える方法は？

2つの連続変数を持つ次の単純なデータセットがあります。つまり： d = data.frame(x=runif(100,0,100),y = runif(100,0,100)) plot(d$x,d$y) abline(lm(y~x,d), col="red") cor(d$x,d$y) # = 0.2135273 変数間の相関が0.6になるようにデータを再配置する必要があります。両方の変数の平均と他の記述統計（sd、min、maxなど）を一定に保つ必要があります。私は与えられたデータとほとんどすべての相関関係を作ることが可能であることを知っています：すなわち： d2 = with(d,data.frame(x=sort(x),y=sort(y))) plot(d2$x,d2$y) abline(lm(y~x,d2), col="red") cor(d2$x,d2$y) # i.e. 0.9965585 sampleこのタスクに関数を使用しようとすると： cor.results = c() for(i in 1:1000){ set.seed(i) d3 = with(d,data.frame(x=sample(x),y=sample(y))) cor.results = c(cor.results,cor(d3$x,d3$y)) } 非常に広い範囲の相関関係が得られます。 > summary(cor.results) Min. 1st Qu. Median Mean 3rd Qu. …

9 r correlation

タグ付けされた質問 「correlation」

タグ付けされた質問「correlation」