タグ付けされた質問 「correlation」

変数のペア間の線形関連の度合いの尺度。

3
均一分布を使用したRでの相関ランダムサンプルの生成
[最近の質問で、Rでランダムなベクトルを生成することを検討しており、その「研究」を特定のポイントに関する独立したQ&Aとして共有したいと思いました。] 相関してランダムなデータを生成する相関行列のコレスキー分解を用いて行うことができるここでの前記事に反映されるように、ここで及びここ。C= L LTC=LLTC = LL^{T} 私が対処したいのは、Rの異なる周辺分布から相関乱数を生成するために均一分布を使用する方法です。

4
が合計してになるいくつかの変数の1つである場合、と間のは有用な値ですか?
回帰分析の前提の1つは、とが絡み合っていないことです。でも考えてみると理にかなっているようです。YバツXXYYY 例を示します。3つのセクション(ABおよびC)のテストがある場合。全体のテストスコアは、3つのセクションの個々のスコアの合計と等しくなります。ここで、はセクションAのスコアで、は全体的なテストスコアであると言えます。次に、線形回帰はこの質問に答えることができます:セクションAに起因する全体的なテストスコアの変動性は何ですか?ここでは、いくつかのシナリオが考えられます。YバツXXYYY セクションAは3つのセクションの中で最も難しいものであり、学生は常に最も低いスコアになります。このような場合、直感的にはは低くなります。全体的なテストスコアのほとんどはBとCによって決定されるためです。R2R2R^2 セクションAは学生にとって非常に簡単でした。この場合も、相関は高くありません。学生は常にこのセクションの100%を採点しているため、このセクションではテスト全体の得点については何もわかりません。 セクションAには中間的な困難があります。この場合、相関はより強くなります(ただし、他のスコア(BおよびC)にも依存します)。 別の例はこれです:尿中の微量元素の総含有量を分析します。そして、尿中のその微量元素の個々の種(化学形態)を独立して分析します。多くの化学的形態があり得る。そして、私たちの分析が正しければ、化学形態の合計は、(異なる手法で分析された)元素の総含有量と同じになるはずです。ただし、1つの化学形態が尿中の総元素含有量と相関しているかどうかを尋ねることは理にかなっています。この総含有量は、その元素の食物からの総摂取量の指標であるためです。次に、が尿の合計要素であり、YXXXYYY 尿中の化学形態Aである場合、相関を調べることにより、この化学形態が全体的な変動に寄与する主要な形態であるかどうかを調べることができます。 とが独立していない場合でも理にかなっているように思われ、これが場合によっては科学的質問への回答に役立つと思われます。YXXXYYY 上記の例では有用または意味があると思いますか?上記のテストスコアの例を考えると、生徒の難易度がまったく同じであれば、各セクションの約33%の貢献があると私はすでに言っています。しかし実際には、これは必ずしも真実ではありません。したがって、多分回帰分析を使用すると、試験の各セクションに起因する真の変動性を知るのに役立つと考えていました。したがって、帰無仮説が真ではないことをすでに知っていても、は意味があるように思えます。R 2R2R2R^2R2R2R^2 そのような状況を説明し、意味のあるパラメーターを提供するための代替の修正された回帰方法はありますか?

4
回帰係数に季節性を許容する方法はありますか?
時系列G tと共変量B tがあるとします。ARMAモデルによってそれらの間の関係を見つけたい: G T = Z T +β 0 +β 1 B T ここで、残差Z tはいくつかのARMAプロセスに従います。 問題がある:私は確かに知っているβ 0及びβ 1年の時間とともに変化します。それでも、月ごとに個別のモデルをあてはめたくありません。これは、時系列に不連続性をもたらすため、最終的な残差の自己相関関数を計算できないためです。 それで、共変量の相関係数を季節的に変化させることができる時系列モデル(またはモデルのファミリー、不思議)はありますか? ======================== 編集:ここに答えてくれてありがとう。季節限定のダミーを使うことにしたのですが、忙しかったので間に合いませんでした。

2
通常のマージンと指定された(ピアソン)相関による条件付き期待値の制限
別のフォーラムで次の質問を見ました。 「成人男性の身長と体重の両方が通常のモデルで説明でき、これらの変数間の相関が0.65であると仮定します。男性の身長が彼を60パーセンタイルに配置する場合、彼の体重はどのパーセンタイルであると予想しますか?」 問題のフォーラムの誰かが、質問はマージンが正常(height and weight ... can be described with normal models)であり、2変量の正常性について話しており、質問に単一の答えがないことをすでに指摘していることを私は知っています。 明らかに、答えは実際の2変量依存関係(コピュラ)に依存します。 私の質問は: 通常のマージンと指定された母集団相関(ρρ\rho、ピアソン相関)が与えられた場合、X とYの両方が正規であり、相関ρがある場合、境界を見つけるのに適度に簡単な方法はありますか?E(Y| バツ= xq)E(Y|X=xq)E(Y|X=x_q)バツ、YX,YX,Yρρ\rho 条件付き期待値の正確な最大値と最小値がある場合、それ(および優先的には、それぞれが発生する状況*)を知っておくとよいでしょう。 *私はそれらの状況がどうなるかについて強い疑いを抱いています(つまり、関与する可能性のある依存の種類。特に、特定の種類の縮退分布が範囲を与えることを期待します)。深さ。(私は誰かがすでにそれを知っている可能性が高いと思います。) それができない場合、最大値と最小値の両方の上限または下限が興味深いでしょう。 代数的な答えはいいでしょうが、私は代数的な答えを必ずしも必要としません(いくつかのアルゴリズムはそうするでしょう)。 概算または部分的な回答が役立つ/役立つ場合があります。 誰も良い答えを持っていない場合、私はそれを自分で試してみるかもしれません。


1
2つの変数間の
まず、についての議論は一般に(つまり、回帰における決定係数)についての説明を引き起こすことを理解しています。私が答えようとしている問題は、2つの変数間の相関のすべてのインスタンスにそれを一般化することです。R 2r2r2r^2R2R2R^2 だから、私はかなりの間、分散の分散について困惑してきました。私はいくつかの説明を提供しましたが、それらはすべて問題があるようです: これは共分散の別の用語です。因子分析の文献ではPCAとEFAを区別するため、後者は共有分散を説明し、前者は説明しないと説明しているため、これは当てはまりません(PCAは明らかに共分散行列で動作しているため、共分散を考慮しているため、共有されます分散は異なる概念でなければなりません)。 相関係数の2乗()です。見る:r2r2r^2 http://www.philender.com/courses/linearmodels/notes1/var1.htmlまたは http://www.strath.ac.uk/aer/materials/4dataanalysisineducationalresearch/unit6/correlationcoefficient/ これは少し意味があります。ここでの問題は、それが共有分散であることを意味する方法を解釈することです。たとえば、「共有分散」の解釈の1つはです。はそれまで減少しない、または確かにすぐ直感的な概念[ ; これは4次元オブジェクトです]。r 2 c o v(A 、B )2 /(v a r(A )× v a r(B ))c o v(A、B) / [ v a r(A)+ v a r(B)]cov(あ、B)/[var(あ)+var(B)]{\rm cov}(A,B)/[{\rm var}(A)+{\rm var}(B)]r2r2r^2c o v(A、B)2/( v a r(A)× v a r(B))cov(あ、B)2/(var(あ)×var(B)){\rm cov}(A,B)^2/({\rm var}(A)\times{\rm var}(B)) 上記のリンクはどちらも、バレンティン図で説明しようとしています。彼らは助けにはなりません。まず、円のサイズは同じです(これは、何らかの理由で図にとって重要であるように思われます)。これは、不均一な分散を考慮していません。それは標準化された変数のバレンティンダイアグラムであり、したがって分散が等しいと想定できます。だから、、いない。r 2rrrr2r2r^2 …

1
これらの各方法を使用して相関を計算する必要があるのはいつですか?
データ分析にRを使用しています。Rはcorr、相関を計算するための関数を提供します。この関数はcorr、ピアソン、スピアマン、ケンドールを推定するための3つの異なるアプローチ/アルゴリズムを提供します。これらの各方法をいつ使用する必要がありますか?どの方法を使用する必要があるかを決定する要因は何ですか?
8 correlation  r 


1
最良の相関する時系列の決定
質問する前に、私は同様の質問を読みましたが、どれも私の特定の興味のために満足のいく答えにつながりません。 ドミニカ共和国の降水量の気候時系列を64年間(1940〜2003年)均質化したいと思います。そのためには、候補者のグループから参照シリーズを選択することが非常に重要です。 sjoベースシリーズがあるとしましょう。このシリーズについて、良い参照シリーズを見つけたいと思います。bani、plcおよびにra近いため、参照候補sjoです。次のマップでは、赤い点が基地局で、緑の点が参照候補です。 cor()これらの月次変数を考慮して、3つの相関分析(Rで実行、関数)を実行しました。生の降水量の値、正規化された差、およびBox-Coxで変換された値です。これらの変数で始まるフィールドに、それぞれ、対応p、dianおよびpnorm。 正規化された差分は、Petersonによって提案された最初の差分級数法(FDM)から得られ、 で構成されます。ここで、は降水量の値です月場合、は1年前の同じ月の降水量です。Petersonと同僚(1998)の発言に従いました。これは、降水量に適用されたFDMは、正規化された差を使用するとより効果的に機能する可能性があると述べています。P m t m P m t − 1[ Pメートルt− Pメートルt − 1] / [ Pメートルt+ Pメートルt − 1][Pmt−Pmt−1]/[Pmt+Pmt−1][Pm_t - Pm_{t-1}] / [Pm_t + Pm_{t-1}]PメートルtPmtPm_tメートルmmPメートルt − 1Pmt−1Pm_{t-1} このPDFファイルの 1ページにあるように、相関は時系列全体(1940-2003)に対して計算されました。生の降水量とBox-Cox変換値の場合、baniとの相関が最も良好ですsjo(黄色の背景セルは最大の相関指数を示します)。生の降水量についてbaniは、他の降水量よりも大幅に相関しています。正規化された差のra場合、他よりも少しだけ相関があります。ただし、各候補sjoは有意水準で統計的に有意な相関指数があり、それらのいずれかを参照系列として使用できることを示唆しています。α = .05α=.05\alpha=.05 これは少し混乱するので、満足できず、さらに詳細な分析を行い、系列を5年の期間間隔で分割し、同じ3つの変数の系列間の相関を評価することに決めました:生の降水量、正規化された差、Box-Cox変換。 PDFの2〜8ページの表は、これらの部分相関の結果を示しています。最後のページは、各測点が各変数の最大相関値を持っていた時間を要約しています。見てわかるように、baniは分析された3つの変数の最も頻繁に相関する値です(すべてのケースで、分析された12の5年間の7倍以上)。 これらの結果から、これbaniはの参照シリーズとして最良の候補だと思いますsjoが、私にはわかりません。5年間の分析は正常ですか?他の分析を実行する必要がありますか?

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

3
ピアソン相関の前にビニングデータは有効ですか?
データをビンに入れ、ビンの平均を計算し、これらの平均に基づいてピアソン相関係数を導出することは許容されますか?(データを母集団のサンプルとして考える場合)これらの平均の散布は平均の標準誤差であり、が大きい場合は非常にきついので、私にはやや怪しい手順のようです。したがって、おそらく、プライマリデータよりもはるかに優れた相関係数が得られますが、それは間違っているようです。一方、相関計算の前に反復測定を平均化することはよくありますが、それほど大きな違いはありません。んnn

1
相関の高い時系列の予測
AR、MA、ARMAなどのさまざまなモデルを使用した時系列予測では、通常、時間の変化におけるデータのモデリングに焦点を当てます。しかし、ピアソンの相関係数が高度に相関していることを示す2つの時系列がある場合、それらの依存関係と予測値をモデル化して他のモデルから予測することは可能ですか?たとえば、あるシリーズが他のシリーズと線形関係にある場合、それは可能であるように見えます。しかし、この種の依存関係分析の一般的な方法はありますか?

1
与えられた固有値の分布は既知です
ランダムマトリックス理論の洞察を使用して、因子を形成するために使用する共分散/相関行列のPCAから主成分の数を決定することに慣れています。 最初のPCに関連付けられている固有値が大きい場合、それは残りの固有値が小さいことを意味します(固有値の合計は相関行列のトレースと等しくなければならないため)。最初のPCが十分に大きい場合、これらの固有値はすべてMarcenko-Pastur分布の下限を下回る可能性があります。これは、偶然のためではなく、最初の固有値が非常に大きいために低いことを意味します。ただし、重要な情報が含まれているという意味ではありません。むしろ、「最初のPCがいくらか大きいとすると、残りの固有値の分布は、ランダムデータが原因である場合、どのように見えるでしょうか?」という質問をするのが理にかなっています。 この問題に対処する研究はありますか?1つまたは複数の固有値を知ることを条件としてマルセンコパストル分布を得ることが可能である場合、因子を有意な情報に反映するかどうかを決定するために反復的に進めることが可能です。

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
変数と他の変数の線形結合の共分散
LETである時系列変数およびこれらの任意の二つの対の間の共分散が知られています。バツ、A 、B 、C、Dバツ、あ、B、C、DX,A,B,C,D を検索するとします。ここは定数です。cov(X、a A + b B + c C+ dD )cov(バツ、aあ+bB+cC+dD)\textrm{cov}(X,aA + bB + cC + dD)a 、b 、c 、da、b、c、da,b,c,d を拡張せずにこれを行う方法はありますか?E[ (X− E[ X] )(A + 。。。。。。)]E[(バツ−E[バツ])(aあ+。。。。。。)]E[(X-E[X])(aA+......)]

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.