タグ付けされた質問 「correlation」

変数のペア間の線形関連の度合いの尺度。

5
高いp値を持つ強い相関係数の例
私は、非常に強い相関係数(たとえば.9以上)と高いp値(たとえば.25以上)を持つことは可能だろうかと思っていました。 これは、高いp値を持つ低い相関係数の例です。 set.seed(10) y <- rnorm(100) x <- rnorm(100)+.1*y cor.test(x,y) cor = 0.03908927、p = 0.6994 高い相関係数、低いp値: y <- rnorm(100) x <- rnorm(100)+2*y cor.test(x,y) cor = 0.8807809、p = 2.2e-16 低相関係数、低p値: y <- rnorm(100000) x <- rnorm(100000)+.1*y cor.test(x,y) cor = 0.1035018、p = 2.2e-16 高い相関係数、高いp値:???

3
決定係数(
r 2の概念を完全に把握したいr2r2r^2変数間の変動量を表すます。すべてのウェブの説明は少し機械的で鈍いです。単に機械的に数字を使用するのではなく、コンセプトを「取得」したい。 例:学習時間とテストスコア rrr = .8 r2r2r^2 = .64 それで、これはどういう意味ですか? テストスコアの変動の64%は時間単位で説明できますか? どうすれば二乗するだけでそれを知ることができますか?

1
相関二項確率変数の生成
線形変換アプローチに従って相関ランダム二項変数を生成できるかどうか疑問に思っていましたか? 以下では、Rで簡単なものを試してみました。しかし、私はこれを行うための原則的な方法があるかどうか疑問に思っていましたか? X1 = rbinom(1e4, 6, .5) ; X2 = rbinom(1e4, 6, .5) ; X3 = rbinom(1e4, 6, .5) ; a = .5 Y1 = X1 + (a*X2) ; Y2 = X2 + (a*X3) ## Y1 and Y2 are supposed to be correlated cor(Y1, Y2)

1
通常、相関係数は大文字の記述されますが、そうでない場合もあります。r 2とR 2の間に本当に違いがあるのだろうか?缶R相関係数よりも、他の平均何か?RRRr2r2r^2R2R2R^2rrr

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

5
2つの変数のログ間に線形関係があるという直感的な意味は何ですか?
私は2つの変数を持っていますが、お互いにそのままプロットするとあまり相関がありませんが、各変数のログをプロットすると非常に明確な線形関係があります。 そのため、次のタイプのモデルになります。 log(Y)=alog(X)+blog⁡(Y)=alog⁡(X)+b\log(Y) = a \log(X) + b、数学的には素晴らしいが、通常の線形モデルの説明的な値を持たないようです。 そのようなモデルをどのように解釈できますか?

1
ランクが相関している場合にのみ、ランダム変数は相関していますか?
は有限の2次モーメントを持つ連続ランダム変数であると仮定します。スピアマンの順位相関係数ρ_sの母集団バージョンは、確率積分変換F_X(X)およびF_Y(Y)のピアソンの積モーメント係数ρとして定義できます。ここで、F_X、F_YはXおよびYの累積分布関数です。ρ S F X(X )F Y(Y )F X、F Y X Yバツ、Yバツ、YX,Yρsρsρ_sFバツ(X)Fバツ(バツ)F_X(X)FY(Y)FY(Y)F_Y(Y)Fバツ、FYFバツ、FYF_X,F_YバツバツXYYY ρs(X、Y)= ρ(F(X)、F(Y))ρs(バツ、Y)=ρ(F(バツ)、F(Y))ρ_s(X,Y)=ρ(F(X),F(Y))。 私は一般的にそれを結論付けることができるのだろうか ρ(X、Y)≠ 0 ↔ ρ(F(X),F(Y))≠ 0ρ(バツ、Y)≠0↔ρ(F(バツ)、F(Y))≠0ρ(X,Y)≠0↔ρ(F(X),F(Y))≠0? すなわち、ランク間に線形相関がある場合にのみ線形相関がありますか? 更新:コメントには2つの例が示されています。 ρ(Fバツ(X)、FY(Y))= 0 → ρ (X、Y)= 0ρ(Fバツ(バツ)、FY(Y))=0→ρ(バツ、Y)=0\rho(F_X(X),F_Y(Y))=0\rightarrow \rho(X,Y) = 0 バツバツXとYYY分布が同じであっても、一般には当てはまりません。したがって、質問は次のように再定式化する必要があります。 ρ(X、Y)= 0 → ρ (Fバツ(X)、FY(Y))ρ(バツ、Y)=0→ρ(Fバツ(バツ)、FY(Y))\rho(X,Y) = 0 \rightarrow \rho(F_X(X),F_Y(Y))? バツバツXとYYYが同じ分布を持っている場合、これがtrue / falseであるかどうかも非常に興味深いです。 (注:バツバツXとYYYが正の象限依存、つまりδ(x、y)= Fバツ、Y(x 、y)− Fバツ(x )FY(y)> 0δ(バツ、y)=Fバツ、Y(バツ、y)−Fバツ(バツ)FY(y)>0δ(x,y)=F_{X,Y}(x,y)−F_X(x)F_Y(y)>0場合、Hoeffdingの共分散式Co v …

2
ピアソンの相関係数は、正規性の違反に対してどの程度堅牢ですか?
特定の種類の変数のデータは、特定の集団で測定した場合、非正常になる傾向があります(たとえば、大うつ病性障害の人々の集団のうつ病のレベル)。ピアソンが正規性を仮定しているとすると、非正規性の条件下での検定統計量はどの程度堅牢ですか? 相関係数が必要な変数がいくつかありますが、これらの変数のいくつかのZスキューはp <.001で重要です(比較的小さなサンプルの場合)。私はいくつかの変換を試みましたが、分布の改善はせいぜいわずかです。 ノンパラメトリック分析に固執する必要がありますか?相関だけでなく、他のタイプの分析も同様ですか?

4
相関値の平均化
さまざまな実験条件下Yで変数が変数にどのように依存するかをテストしX、次のグラフを取得するとします。 上記のグラフの破線は、各データ系列の線形回帰を示し(実験設定)、凡例の数字は各データ系列のピアソン相関を示します。 私は間を「平均相関」(または「平均相関を」)を計算したいXとY。r値を単純に平均してもいいですか?「平均判定基準」どうですか?平均を計算し、その値の2乗を取るか、個々のR 2の平均を計算する必要がありますか?R2R2R^2rR2R2R^2

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
非線形相関を検出するためのMICアルゴリズムは直感的に説明できますか?
最近では、2つの記事を読みました。1つ目は相関の履歴に関するもので、2つ目は最大情報係数(MIC)と呼ばれる新しい方法に関するものです。変数間の非線形相関を推定するMICメソッドを理解することに関して、あなたの助けが必要です。 さらに、Rでの使用方法については、著者のWebサイト(ダウンロード)で確認できます。 これがこの方法を議論し理解するための良いプラットフォームになることを願っています。この方法の背後にある直感と、著者が述べたようにどのように拡張できるかを議論することへの私の関心。 " ... MIC(X、Y)からMIC(X、Y | Z)への拡張が必要です。MICの安定した推定値を得るために必要なデータの量、外れ値に対する影響の程度、3 -またはそれは欠場する高次元の関係、そしてより多くのMICは大きな前進ですが、取るために、より多くのステップがあります。」

4
相関と因果関係
相関というタイトルのウィキペディアのページからは、因果関係を意味するものではありませんが、 相関する2つのイベントAとBの場合、考えられるさまざまな関係は次のとおりです。 AはB(直接因果関係)を引き起こします。 BはA(逆因果関係)を引き起こします。 AとBは共通の原因の結果ですが、互いに原因ではありません。 AとBは両方ともCを引き起こし、Cは(明示的または暗黙的に)条件付けられます。 AはBを引き起こし、BはAを引き起こします(双方向または周期的な因果関係)。 AはBを引き起こすCを引き起こします(間接的な因果関係)。 AとBの間に接続はありません。相関関係は偶然です。 4番目のポイントはどういう意味ですか。AとBは両方ともCを引き起こし、Cは(明示的または暗黙的に)条件付けられます。AとBがCを引き起こす場合、なぜAとBを相関させる必要があるのか​​。

5
相関データシミュレーションにコレスキー分解または代替を使用する方法
コレスキー分解を使用して、相関行列が与えられた相関ランダム変数をシミュレートします。事は、結果は与えられた相関構造を決して再現しないということです。以下に、状況を説明するためのPythonの小さな例を示します。 import numpy as np n_obs = 10000 means = [1, 2, 3] sds = [1, 2, 3] # standard deviations # generating random independent variables observations = np.vstack([np.random.normal(loc=mean, scale=sd, size=n_obs) for mean, sd in zip(means, sds)]) # observations, a row per variable cor_matrix = np.array([[1.0, 0.6, 0.9], [0.6, 1.0, …


3
事前に指定された相関行列を使用してデータを生成するにはどうすればよいですか?
平均=、分散=、相関係数=相関ランダムシーケンスを生成しようとしています。以下のコードでは、標準偏差として&を使用し、平均として&を使用しています。1 0.80001110.80.80.8s1s2m1m2 p = 0.8 u = randn(1, n) v = randn(1, n) x = s1 * u + m1 y = s2 * (p * u + sqrt(1 - p^2) * v) + m2 これによりcorrcoef()、xとの間の0.8が正確になりyます。私が欲しい場合、私は、一連の手段を生成することができますどのように私の質問はzそれがまたと相関しているy(同じ相関でr=0.8r=0.8r=0.8)ではなく、とx。知っておく必要がある特定の式はありますか?私が見つかりました。一つが、それを理解できませんでした。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.