タグ付けされた質問 「pearson-r」

ピアソンの積率相関係数は、2つの変数間の線形関係の尺度です。 X そして Y、+ 1と-1の間の値を与えます。

2
r、rの2乗、残差標準偏差は線形関係について何を教えてくれますか?
リトル背景 私は、回帰分析の解釈に取り組んでいますが、私は本当にRの意味について混乱、rは乗と残留標準偏差。私は定義を知っています: 特徴づけ rは、散布図上の2つの変数間の線形関係の強度と方向を測定します R-2乗は、データが近似回帰直線にどれだけ近いかを示す統計的尺度です。 残差標準偏差は、線形関数の周囲に形成される点の標準偏差を記述するために使用される統計用語であり、測定される従属変数の精度の推定値です。(ユニットが何であるかわからない、ここのユニットについての情報は役に立つでしょう) (ソース:ここ) 質問 私はキャラクタリゼーションを「理解」していますが、これらの用語がどのようにデータセットについて結論を導き出すかを理解しています。ここに小さな例を挿入します。これは私の質問に答えるためのガイドとして役立つかもしれません(あなた自身の例を自由に使用してください!) 例 これは手間がかかる質問ではありませんが、簡単な例を得るために本で検索しました(私が分析している現在のデータセットは複雑すぎて、ここに表示するには大きすぎます) トウモロコシの大きな畑で、それぞれ10 x 4メートルの20のプロットがランダムに選択されました。各プロットについて、植物密度(プロット内の植物の数)と平均穂軸重量(穂軸あたりの穀物のグラム)が観察されました。次の表に結果を示します。(出典:生命科学の統計) ╔═══════════════╦════════════╦══╗ ║ Platn density ║ Cob weight ║ ║ ╠═══════════════╬════════════╬══╣ ║ 137 ║ 212 ║ ║ ║ 107 ║ 241 ║ ║ ║ 132 ║ 215 ║ ║ ║ 135 ║ 225 ║ ║ ║ 115 …

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
スピアマンの相関がピアソンよりも明確な量が少ない場合、それは何を示していますか?
関連するデータセットがたくさんあります。それらのペア間のピアソン相関は通常、スピアマン相関よりも明らかに大きくなります。これは、相関関係が線形であることを示唆していますが、ピアソンとスピアマンが同じであったとしても、予想されるかもしれません。ピアソンとスピアマンの相関関係に明確なギャップがあり、ピアソンが大きい場合、それはどういう意味ですか?これは、私のデータセット全体で一貫した機能のようです。

2
カードの2つのデッキ間の相関関係?
オーバーハンドカードシャッフルをシミュレートするプログラムを作成しました。 各カードには番号が付けられ、スーツCLUBS, DIAMONDS, HEARTS, SPADESは2から10までのランクで、ジャック、クイーン、キング、エースの順になります。したがって、2つのクラブの数は1、3つのクラブの数は2 .... Ace of Clubsは13 ... Ace of Spadesは52です。 カードがどのようにシャッフルされているかを判別する方法の1つは、シャッフルされていないカードと比較して、カードの順序が相関しているかどうかを確認することです。 つまり、私はこれらのカードを持っているかもしれませんが、比較のためにシャッフルされていないカードがあります: Unshuffled Shuffled Unshuffled number Shuffled number Two of Clubs Three of Clubs 1 2 Three of Clubs Two of Clubs 2 1 Four of Clubs Five of Clubs 3 4 Five of Clubs Four of …

1
2つのピアソン相関の強さを比較する方法は?
表に提示されているピアソン相関(r値)を相互に比較できるかどうか、レビュアーから尋ねられました(実際のr値を見ているだけでなく)あるものよりも「強い」と主張できる。 これについてどう思いますか?私はこの方法を見つけました http://vassarstats.net/rdiff.html これが当てはまるかどうかはわかりません。

3
ピアソンの相関と線形回帰によるボンフェローニ補正
私は5つのIV(5つの性格特性、外向性、快適さ、良心、神経症、開放性)について、PCTに対する態度、CBTに対する態度、PCTに対する態度、CBTに対する統計を実行しています。他にどのような影響があるかを確認するために、年齢と性別も追加しました。 私は、性格特性がDVの態度を予測できるかどうかをテストしています。 私は最初にすべての変数にピアソンの相関を使用しました(45テスト)。 主な発見は、外向性がPCTの態度とp = 0.05で相関していたことでした。しかし、45のテストを実行していたため、アルファ= 0.05 / 45 = 0.001のボンフェローニ補正を実行したため、この結果は重要ではありません。 その後、すべての変数に対して単純な線形回帰を実行しましたが、PCTに対する態度では外向性が有意でした。ボンフェローニ修正を行うと、これは重要ではなくなります。 質問: ピアソンの相関でボンフェローニを修正する必要がありますか? 私がそうし、PCTへの態度を無視した外向性を作る場合、線形回帰を行うことにまだ意味がありますか? 線形回帰を行う場合、これについてもボンフェローニ補正を行う必要がありますか? 修正された値のみ、または修正されていない値と修正された値の両方を報告しますか?

3
変数の対数変換の前または後に相関を取る
対数変換を行う前または後に、2つの確率変数XおよびYのピアソン相関を計算する必要があるかどうかに関する一般原則はありますか?より適切なテスト手順はありますか?対数変換は非線形であるため、値は似ていますが異なる値になります。XまたはYがログ後に正常に近いかどうかに依存しますか?もしそうなら、それはなぜ問題なのですか?これは、XとYとlog(X)とlog(Y)の正規性検定を行う必要があることを意味し、それに基づいて、pearson(x、y)がpearson(log(x)、log( y))?

5
ピアソン相関を超えて何ができますか?
2つの変数が相関しているかどうかを確認しているときに、ピアソン相関を適用すると0.1と低い数値が得られ、相関がないことを示しました。この主張を強化するために私にできることはありますか? 私が見ているデータセット(投稿制限のためのサブセット)はこれです: 6162.178176 0.049820046 4675.14432 0.145022261 5969.056896 0.47210138 5357.506176 0.052263122 33.796224 16.45154204 6162.178176 0.064262991 6725.448576 0.419005508 3247.656192 0.867394771 5357.506176 0.052263122 3612.97728 0.091337414 6162.178176 0.053065652 867.436416 0.129116092 556.833024 1.01107509 1517.611392 168.1484478 1517.611392 35.11570899 4675.14432 0.053902079 4182.685056 0.070289777 2808.30528 0.071929502 5969.056896 0.47193385 3247.656192 0.896646636 4387.071744 0.056985619 6273.222912 0.046547047 4387.071744 0.034875199 7946.940672 0.074997414 …

1
回帰問題におけるピアソンの相関の代理としてのMSE
TL; DR(長すぎて読まなかった): 私は時系列予測問題に取り組んでいます。これは、ディープラーニング(ケラ)を使用して回帰問題として定式化します。私の予測と真のラベル間のピアソン相関を最適化したいと思います。MSEをプロキシとして使用すると、実際にはピアソンを損失関数として直接使用するよりも(相関の観点から)より良い結果が得られるという事実に戸惑っています。ディープラーニングの損失関数として相関メトリックを使用することは悪い習慣と考えられていますか?もしそうなら、なぜですか? 長いバージョン: 私には時系列予測タスクがあります連続するタイムステップの値を観察し、タイムステップ値を予測する必要があります。通常、値はであるため、これを回帰問題として扱い、ディープラーニング(keras)を使用して解決しています。T + 1 [ - 200 、200 ]TTTT+ 1T+1T+1[ - 200 、200 ][−200,200][-200,200] 私の質問は、損失と測定基準の選択に関するものです。 私のデータの真のラベルは、主に前後にあり、いくつかの極端な値があります。極端な値の多くは誤りであり、それらを正しくすることに集中するように学習をシフトしたくありません。言い換えれば、一般的な傾向を把握できるようになり(正の値と負の値の期間を正しく分類)、たとえば、200ではなく100を予測して「共存」できます。[ - 10 、10 ][−10,10][-10,10] このため、私の評価指標は、予測値と真の値の間のピアソン相関であるべきだと思います。 さて、損失関数について:理想的には、高いピアソン相関を最適化したい場合、それを損失関数として使用することは理にかなっているでしょう?私は「ベースラインモデル」であるシンプルなアーキテクチャを2回テストしました。1回はピアソン(ミニバッチで計算)を直接損失関数として使用し、もう1回は一般的なMSEをプロキシとして使用しました。どちらの場合も、MSEとピアソンの両方を異なるエポックについて追跡し、検証セットに基づいて「早期停止」を行います。 私の結果: 損失としてのMSE:MSE 160、ピアソン0.7 損失としてのピアソン:MSE 250、ピアソン0.6 ピアソン損失のより高いMSEは、相関の最適化にはスケールがないという事実の結果であると理解しています。そのため、すべての予測は、MSEを増加させる方法で要因によって「オフ」になる可能性があります。しかし、MSEをプロキシとして使用すると、ピアソン相関自体の点で実際にどのように改善されるのでしょうか。ピアソン相関を損失関数として使用してはならない理由について、最適化に関連する理由はありますか?実際、ほとんど使われていないようですが、その理由を知りたいと思います。

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

3
ピアソン相関係数の基礎
ピアソン相関係数は、式を使用して計算されます。この式には、2つの変量とが相関しているかどうかの情報がどのように含まれていますか?または、相関係数のこの式をどのように取得しますか? XYr = c o v (X、Y)v a r (X)√v a r (Y)√r=cov(X,Y)var(X)var(Y)r = \frac{cov(X,Y)}{\sqrt{var(X)} \sqrt{var(Y)}}バツXXYYY

2
ピアソン相関係数の値が-1未満または1を超えることは可能ですか?
大規模なデータセットに対してこの式に従ってピアソン相関係数を計算しようとしています: ほとんどの場合、私の値は-1から1の間ですが、次のような奇妙な数値が表示されることがあります。 1.0000000002 -3 等々。これをもたらす奇妙なデータがある可能性はありますか、それとも計算にエラーがあることを意味しますか? たとえば、Xの合計が1で、X ^ 2の合計が1になる場合があることに気づきました。これにより、1.00000002のような値になります。それ以外の場合は、XYの合計を0として、計算結果は-3になります。これは統計的に可能ですか、それとも私の計算にエラーがありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.