タグ付けされた質問 「correlation」

変数のペア間の線形関連の度合いの尺度。

4
コミュニティの構成を比較するためのテストは何ですか?
この初心者の質問がこのサイトの正しい質問であることを願っています: 2つのサイトA、Bの生態系コミュニティの構成を比較したいとします。3つのサイトすべてに犬、猫、牛、鳥がいることを知っているので、各サイトでその存在量をサンプリングします(実際には「各サイトの各動物の予想される存在量)。 たとえば、各サイトで各動物の5匹を数えると、AとBは非常に「類似」しています(実際、それらは「同じ」です)。 しかし、サイトAで100匹の犬、5匹の猫、2頭の牛、および3羽の鳥を見つけた場合、サイトBで5匹の犬、3匹の猫、75頭の牛、および2羽の鳥を見つけます。サイトAとBは「異なる」と言えます。 、彼らは正確に同じ種の組成を持っているにもかかわらず。 (私はSorensenとBray-Curtisのインデックスを読みましたが、それらは犬や猫などの不在/存在のみを考慮し、それらの存在量は考慮していないようです。) これを決定する統計的検定はありますか?

3
欠落しているエントリとの相関行列を表示するにはどうすればよいですか?
変数間の関係を簡単に調べるために、これまでに収集した記事の相関関係のグラフィック表現を取得したいと思います。以前は(乱雑な)グラフを描いていましたが、データが多すぎます。 基本的に、私はテーブルを持っています: [0]:変数1の名前 [1]:変数2の名前 [2]:相関値 「全体的な」行列は不完全です(たとえば、V1 * V2、V2 * V3の相関関係がありますが、V1 * V3の相関関係はありません)。 これをグラフィカルに表現する方法はありますか?

1
2つの時系列をギャップと異なるタイムベースに関連付ける方法は?
私は尋ねたこの質問を StackOverflowの上の上に、そしてここでそれを尋ねることをお勧めしました。 2つの時系列の3D加速度計データがあり、タイムベースが異なり(クロックは異なる時間に開始され、サンプリング時間中にわずかにクリープがあり)、異なるサイズの多くのギャップが含まれています(別々に書き込むことに関連する遅延のため)フラッシュデバイス)。 私が使用している加速度計は、安価なGCDC X250-2です。加速度計を最高のゲインで実行しているので、データには大きなノイズフロアがあります。 時系列にはそれぞれ約200万のデータポイント(512サンプル/秒で1時間以上)があり、約500の対象となるイベントが含まれます。一般的なイベントは100〜150サンプル(それぞれ200〜300 ms)です。これらのイベントの多くは、フラッシュ書き込み中のデータ停止の影響を受けます。 したがって、データは原始的ではなく、非常にきれいでもありません。しかし、私の眼球検査では、興味のある情報が明確に含まれていることが示されています(必要に応じて、プロットを投稿できます)。 加速度計は同様の環境にありますが、適度に結合されているだけです。つまり、各加速度計からどのイベントが一致するかを目で確認できますが、ソフトウェアでこれを行うことはできません。物理的な制限により、デバイスは軸が一致しないさまざまな方向にも取り付けられますが、それらは私が作成できる限り直交に近いです。したがって、たとえば、3軸の加速度計AおよびBの場合、+ Axは-By(上下)にマップされ、+ Azは-Bx(左右)にマップされ、+ Ayは-Bz(前後)にマップされます。 。 私の最初の目標は、縦軸の衝撃イベントを関連付けることですが、最終的には、a)軸のマッピングを自動的に検出し、b)マップされたエースのアクティビティを関連付け、c)2つの加速度計の動作の違い(ねじるなど)を抽出しますまたは屈曲)。 時系列データの性質により、Pythonのnumpy.correlate()は使用できなくなります。私もR's Zooパッケージを見てきましたが、それで進んでいません。信号解析のさまざまな分野を参考にしてきましたが、進歩はありませんでした。 誰かが私にできること、または私が研究すべきアプローチについての手がかりはありますか? 2011年2月28日更新:データの例を示すいくつかのプロットをここに追加しました。

1
機能の冗長性を定量化する方法は?
分類の問題を解決するために使用する3つの機能があります。元々、これらの機能はブール値を生成したので、正と負の分類のセットがどれだけ重複しているかを調べることで、それらの冗長性を評価できました。代わりに、実際の値(スコア)を生成するように機能を拡張しました。それらの冗長性をもう一度分析したいと思いますが、その方法について完全に途方に暮れています。誰かが私にそれについてどうやって進むべきかについてのポインタやアイデアを提供できますか? 私はこの質問が非常に曖昧であることを知っています、それは私が統計をあまり強く理解していないからです。ですから、答えがわからない場合は、私の理解を深めるのに役立つ質問があるかもしれません。 編集:私は現在、主題についてウィキペディアを閲覧していますが、私が欲しいのは相関係数であると感じていますが、これが正しいアプローチであるかどうか、そして多くの利用可能な係数のうちどれが適切であるかはまだわかりません。 編集2:ブール値の場合、私は最初に各機能に対して、それが真実であるサンプルのセットを作成しました。次に、2つのフィーチャ間の相関は、これらのセットの和集合のサイズに対するこれらのセットの交差のサイズでした。この値が1の場合、常に同じであるため、完全に冗長になります。0の場合、同じになることはありません。

1
固有ベクトルの視覚的な説明について混乱:視覚的に異なるデータセットが同じ固有ベクトルを持つことができるのはなぜですか?
多くの統計教科書は、共分散行列の固有ベクトルが何であるかを直感的に説明しています。 ベクトルuとzは固有ベクトル(まあ、固有軸)を形成します。意味あり。しかし、混乱するのは、生データではなく相関行列から固有ベクトルを抽出することです。さらに、まったく異なる生データセットは、同一の相関行列を持つことができます。たとえば、次の両方には次の相関行列があります。 [ 10.970.971][10.970.971]\left[\begin{array}{} 1 & 0.97 \\ 0.97 &1\end{array}\right] そのため、同じ方向を指す固有ベクトルがあります。 [ .71.71− .71.71][.71−.71.71.71]\left[\begin{array}{} .71 & -.71 \\ .71 & .71\end{array}\right] しかし、固有ベクトルが生データのどの方向であるかについて同じ視覚的解釈を適用すると、異なる方向を指すベクトルが得られます。 誰かが私がどこが間違っているのか教えてもらえますか? 二番目の編集:私が大胆であるかもしれないなら、以下の優れた答えで私は混乱を理解し、それを説明することができました。 視覚的説明は、共分散行列から抽出された固有ベクトルが異なるという事実と一致しています。 共分散と固有ベクトル(赤): [ 1111] [ .7.72− .72。7][1111][。7−.72.72。7]\left[\begin{array}{} 1 & 1 \\ 1 & 1\end{array}\right] \left[\begin{array}{} .7 & -.72 \\ .72 & .7\end{array}\right] 共分散と固有ベクトル(青): [ .25.5.51] [ …

2
合計が正常ではない2つの*相関した*正規変数の例
私は、わずかに正常であるが共同して正常ではない相関ランダム変数のペアのいくつかの素晴らしい例を知っています。参照してください、この答えによってディリップSarwate、およびこれによって枢機卿を。 また、合計が正常でない2つの正規確率変数の例も認識しています。Macroによるこの回答を参照してください。ただし、この例では、2つの確率変数は相関していません。 非ゼロの共分散を持ち、合計が正規でない2つの正規確率変数の例はありますか?あるいは、2変量正規ではない場合でも、相関する2つの正規確率変数の合計が正常でなければならないことを証明することは可能ですか? [コンテキスト:分布を求める宿題があります。ここで、とは相関標準法線です。私はそれらが二変量正常であることを指定することを意図した質問だと思います。しかし、私は non-zero に対するこの追加の仮定なしに何かが言えるかどうか疑問に思っています。]aX+bYaX+bYaX+bYXXXYYYρρ\rhoρρ\rho ありがとう!


1
なぜ統計学者は相互関係の尺度として相互情報を使用しないのですか?
私は非統計学者によるいくつかの講演を見てきました。彼らは、回帰(または同等/密接に関連する統計的検定)ではなく相互情報量を使用して相関測定を再発明しているようです。 私は、統計学者がこのアプローチを採用しないという正当な理由があると思います。私の素人の理解は、エントロピー/相互情報量の推定者は問題が多く不安定である傾向があるということです。結果として、パワーにも問題があると思います。彼らは、パラメトリックテストフレームワークを使用していないと主張して、これを回避しようとします。通常、この種の作業は検出力の計算や、信頼性/信頼できる間隔でさえ問題になりません。 しかし、悪魔の支持者の立場を取るには、データセットが非常に大きい場合、収束が遅いのはそれほど大きな問題でしょうか。また、これらの方法は、関連付けがフォローアップ調査によって検証されるという意味で「機能する」ように見える場合もあります。関連性の尺度として相互情報量を使用することに対する最も良い批評は何ですか、なぜそれが統計的実践で広く使用されていないのですか? 編集:また、これらの問題をカバーする良い論文はありますか?

1
標準化変数の共分散は相関ですか?
基本的な質問があります。とYの 2つの確率変数があるとします。平均を引いて標準偏差で割ることで標準化できます。つまり、X s t a n d a r d i z e d = (X − E (X ))バツXXYYY。バツs t a n da r d私はze d= (X− E(X))(SD (X))Xstandardized=(X−E(X))(SD(X))X_{standardized} = \frac{(X - E(X))}{(SD(X))} とYの相関、C o r (X 、Y )は、XとYの標準化されたバージョンの共分散と同じですか?つまり、C o r (X 、Y )= C o v (X s …

4
相関行列からの確率変数の最小相関サブセット
相関行列AAA。これは、Matlabのcorrcoef()を通じてピアソンの線形相関係数を使用して取得しました。次元100x100の相関行列。つまり、100個の確率変数で相関行列を計算しました。 これらの100個の確率変数の中で、相関行列に含まれる「相関がほとんどない」10個の確率変数を見つけたいと思います(測定するメトリックについて、相関行列Bと比較して相関行列Aに含まれる「より多くの相関」の量の定量化を参照してください)相関行列の全体的な相関関係)。私はペアワイズ相関のみを気にします。 それらの10個の確率変数を妥当な時間内に見つけるための良い方法はありますか(たとえば、私は試したくない(10010)(10010)\binom{100}{10}組み合わせ)?近似アルゴリズムは問題ありません。

5
十分位数を使用して相関を見つけることは、統計的に有効なアプローチですか?
相関関係のない1,449データポイントのサンプルがあります(r二乗0.006)。 データを分析したところ、独立変数の値を正と負のグループに分割すると、各グループの従属変数の平均に有意差があるように見えました。 独立変数値を使用してポイントを10ビン(十分位数)に分割すると、十分位数と平均従属変数値(r-2乗0.27)の間に強い相関があるようです。 私は統計についてあまり知らないので、ここにいくつかの質問があります: これは有効な統計的アプローチですか? 最適な数のビンを見つける方法はありますか? このアプローチの適切な用語は何ですか。 このアプローチについて学ぶためのいくつかの紹介リソースは何ですか? このデータの関係を見つけるために使用できる他の方法は何ですか? 参照用の十分位数データは次のとおりです。https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90 編集:これはデータの画像です: 業界の勢いは独立変数であり、エントリーポイントの品質は依存しています

1
2つのピアソン相関の強さを比較する方法は?
表に提示されているピアソン相関(r値)を相互に比較できるかどうか、レビュアーから尋ねられました(実際のr値を見ているだけでなく)あるものよりも「強い」と主張できる。 これについてどう思いますか?私はこの方法を見つけました http://vassarstats.net/rdiff.html これが当てはまるかどうかはわかりません。

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

3
時系列間の類似点を見つける方法は?
次の例では、海の5つの水深で記録された水温測定の時系列で構成されるデータフレームがあり、各値はTempの日付DateTimeと水深に対応していますDepth。 set.seed(1) Temp <- rnorm(43800,sd=20) AirT <- rnorm(8760,sd=20) Depth <- c(1:5) DateTime = seq(from=as.POSIXct("2010-01-01 00:00"), to=as.POSIXct("2010-12-31 23:00"), length=8760) Time <- as.POSIXct(DateTime, format = "%Y-%m-%d %H:%M") DatT <- data.frame(Temp) ## bind together FinalDat <- cbind(DatT, Date = rep(Time,5)) FinalDat <- cbind(FinalDat, AirT = rep(AirT, 5), Depth = rep(Depth, each = 8760), …

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.