タグ付けされた質問 「correlation」

変数のペア間の線形関連の度合いの尺度。

3
センタリングは共分散を減らすことを意味しますか?
独立していない確率変数が2つあり、過度の「信号」を失うことなく、それらの間の共分散をできるだけ減らしたいと仮定すると、センタリングは役に立ちますか?センタリングによって相関が大幅な要因で減少するということをどこかで読んだので、共分散についても同じようにする必要があると思います。

2
正弦と余弦の相関
仮定均一に分布している[ 0 、2 π ]。レッツY = 罪のXとZ = COS X。YとZの間の相関がゼロであることを示します。XXX[0,2π][0,2π][0, 2\pi]Y=sinXY=sin⁡XY = \sin XZ=cosXZ=cos⁡XZ = \cos XYYYZZZ サインとコサインの標準偏差とそれらの共分散を知る必要があるようです。これらをどのように計算できますか? が均一な分布であり、変換された変数Y = sin (X )およびZ = cos (X )を見ると仮定する必要があると思います。次に、無意識の統計学者の法則が期待値を与えるXXXY=sin(X)Y=sin⁡(X)Y=\sin(X)Z=cos(X)Z=cos⁡(X)Z=\cos(X) 及びE[Z]=1E[Y]=1b−a∫∞−∞sin(x)dxE[Y]=1b−a∫−∞∞sin⁡(x)dxE[Y] = \frac{1}{b-a}\int_{-\infty}^{\infty} \sin(x)dxE[Z]=1b−a∫∞−∞cos(x)dxE[Z]=1b−a∫−∞∞cos⁡(x)dxE[Z] = \frac{1}{b-a}\int_{-\infty}^{\infty} \cos(x)dx (密度は均一な分布であるため一定であり、積分の外に移動できます)。 ただし、これらの積分は定義されていません(ただし、コーシーのプリンシパル値は0だと思います)。 どうすればこの問題を解決できますか?私は解決策を知っていると思います(サインとコサインは反対の位相を持っているので相関はゼロです)が、それを導き出す方法を見つけることができません。

1
LKJcorrが相関行列に適しているのはなぜですか?
私は、(素晴らしい)本の統計的再考(Richard McElreath著)の第13章「Adventures in Covariance」を読んでいます。彼は次の階層モデルを提示しています。 (Rは相関行列です) 著者は、それLKJcorrが相関行列の正則化事前として機能する弱く情報的な事前であると説明しています。しかし、なぜそうなのでしょうか。LKJcorr分布がどのような特性を持っているので、相関行列にとってこれほど優れています。相関行列に実際に使用されている他の良い事前分布はどれですか?


2
カードの2つのデッキ間の相関関係?
オーバーハンドカードシャッフルをシミュレートするプログラムを作成しました。 各カードには番号が付けられ、スーツCLUBS, DIAMONDS, HEARTS, SPADESは2から10までのランクで、ジャック、クイーン、キング、エースの順になります。したがって、2つのクラブの数は1、3つのクラブの数は2 .... Ace of Clubsは13 ... Ace of Spadesは52です。 カードがどのようにシャッフルされているかを判別する方法の1つは、シャッフルされていないカードと比較して、カードの順序が相関しているかどうかを確認することです。 つまり、私はこれらのカードを持っているかもしれませんが、比較のためにシャッフルされていないカードがあります: Unshuffled Shuffled Unshuffled number Shuffled number Two of Clubs Three of Clubs 1 2 Three of Clubs Two of Clubs 2 1 Four of Clubs Five of Clubs 3 4 Five of Clubs Four of …

4
データ内の因果関係をどのように見つけますか?
「A」、「B」の列を持つテーブルがあるとしましょう 「A」が「B」を引き起こすかどうかを判断する統計的方法はありますか?次の理由により、ピアソンのrを実際に使用することはできません。 値間の相関関係のみをテストします 相関は因果関係ではありません ピアソンのrは線形関係のみを相関させることができます では、他にどのようなオプションがありますか?

4
不規則な時系列の動的タイムワーピング
最近、ダイナミックタイムワーピング(DTW)についてたくさん読んでいます。DTWの不規則な時系列への適用に関する文献がまったくないか、少なくとも見つけることができなかったことに非常に驚いています。 誰かが私にその問題に関連する何かへの参照、またはそれの実装さえ与えるかもしれませんか?


2
多くの変数の散布図行列の探索
多くのパラメーター(たとえば、50〜200)を含むデータセットを分析していて、変数間の関係(たとえば、2変数散布図または2次元ヒストグラム)に興味があります。ただし、この数のパラメーターでは、200x200の配列のプロットを描画するのは現実的ではないようです(それを印刷して壁に掛けない限り)。 一方、相関行列のみを実行しても、2変数関係に関するすべての情報が得られるわけではありません。 多くの変数の2変数関係を探索する方法(ライブラリまたはワークフロー)はありますか? 私は特に他の人に結果を示すことに興味があります(おそらくいくつかのデータ前処理の後)。たとえば、JavaScriptでインタラクティブな何か、相関行列から選択したフィールドの散布図行列を見ることができたとします。 散布図行列とは、次のようなものです。 (から取らpandasplottingブログ ;でaviable パイソン/パンダ、R、D3.js、など)。

1
一般化された最小二乗:回帰係数から相関係数へ?
1つの予測子を持つ最小二乗の場合: y= βx + ϵy=βx+ϵy = \beta x + \epsilon とがフィッティングの前に標準化されている場合(つまり、)、次のようになります。、Y 〜N (0 、1 )バツxxyyy〜N(0 、1 )∼N(0,1)\sim N(0,1) Rββ\betaはピアソン相関係数と同じです。rrr X = β Y + εββ\betaは反映された回帰で同じです:x = βy+ ϵx=βy+ϵx = \beta y + \epsilon 一般化された最小二乗(GLS)の場合、同じことが当てはまりますか?つまり、データを標準化した場合、回帰係数から直接相関係数を取得できますか? データの実験から、反映されたGLSはさまざまな係数を導き、また、回帰係数が相関の期待値と一致していると確信していません。私は人々がGLS相関係数を引用しているのを知っているので、彼らがどのようにしてそれらに到達し、それゆえ彼らが本当に何を意味するのか疑問に思っていますか?ββ\beta

1
openMxを使用した一卵性双生児と兄弟双生児のSEM概念モデルでのパスの重みの選択
SEMモデルの指定と適合の方法を学ぶために、遺伝疫学分析のためにRパッケージOpenMxをレビューしています。私はこれが初めてなので、我慢してください。OpenMxユーザーガイドの 59ページの例に従っています。ここでは、次の概念モデルを描画します。 そして、パスを指定する際に、潜在的な「1」ノードの重みを顕在化したbmiノード「T1」と「T2」に0.6に設定しました。 関心のある主なパスは、各潜在変数からそれぞれの観測変数へのパスです。これらも推定され(したがって、すべて解放されます)、0.6の開始値と適切なラベルを取得します。 # path coefficients for twin 1 mxPath( from=c("A1","C1","E1"), to="bmi1", arrows=1, free=TRUE, values=0.6, label=c("a","c","e") ), # path coefficients for twin 2 mxPath( from=c("A2","C2","E2"), to="bmi2", arrows=1, free=TRUE, values=0.6, label=c("a","c","e") ), 0.6の値は、共分散の推定から来ているbmi1とbmi2(厳密のモノ接合子双子ペア)。2つの質問があります。 パスに0.6の「開始」値が与えられると彼らが言うとき、これはGLMの推定のように、初期値で数値積分ルーチンを設定するようなものですか? この値が一卵性双生児から厳密に推定されるのはなぜですか?

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
データセットを最初に一目で見る
私の無知を許してください、しかし... 自分で見つけた新しいデータの束に直面している状況で、自分を見つけ続けています。このデータは通常、次のようになります。 Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) 通常、一見、ここに傾向があるかどうかは本当にわかりません。さまざまな列間の相関関係はそれほど重要ではないかもしれませんが、列/カテゴリのすべての可能な組み合わせに対して手動でプロットを作成する必要がなかったとしたら嬉しいです。 データのテーブルと、列を数値、日付、カテゴリとして扱う必要がある情報を受け入れ、プロットを開始するツールはありますか? 各2つの数値列間の相関 各2つの数値列間の相関関係、各カテゴリの個別のトレンドライン 時系列としての各数値列、 カテゴリで区切られた時系列としての各数値列、 等 最終的に、これは多数のプロットを生成し、そのほとんどはノイズのみを示します。理想的には、このツールは相関によってプロットにスコアを付け、最終的に最もスコアの高いプロットからスライドショーを表示できます。これは非常に不完全ですが、データセットを一見すると便利です。 そう?誰もがこれに使用するツールがあり、私はそれについて知らないだけですか、これは私たちが作る必要があるものですか?

2
2つ以上の相関行列を比較する方法は?
私は相関行列で計算集合 MATLAB関数を使用してデータ(観察します)。PPP(n×n)(n×n)(n \times n)PPP(m×n)(m×n)(m \times n)corrcoef これらの相関行列を相互に比較および分析するにはどうすればよいですか?PPP テスト、メソッド、チェックポイントは何ですか?

3
相関行列の相関の統計的有意性を示す相関係数のしきい値
各データポイントが14の特性を含む455のデータポイントを含むデータセットの相関行列を計算しました。したがって、相関行列の次元は14 x 14です。 これらの2つの特性の間に有意な相関があることを示す相関係数の値にしきい値があるかどうか疑問に思っていました。 私は-0.2から0.85の範囲の値を持っています、そして私は重要なものは0.7を超えるものであると考えていました。 しきい値と見なす必要がある相関係数の一般的な値はありますか、それとも、調査しているデータタイプに依存しているだけですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.