タグ付けされた質問 「correlation」

変数のペア間の線形関連の度合いの尺度。

4
直感/相関行列の固有値の分布の解釈?
相関行列の固有値の分布の直感/解釈は何ですか?通常、最大3つの固有値が最も重要であるのに対し、ゼロに近い固有値はノイズであると聞きがちです。また、自然に発生する固有値分布がランダム相関行列から計算されたものとどのように異なるかを調査するいくつかの研究論文を見ました(ここでも、ノイズを信号から区別します)。 あなたの洞察について詳しく説明してください。

1
GBMパッケージとGBMを使用したキャレット
私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5%の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。 私の質問は次のとおりです。 1)これらの2つのパッケージは同じであっても違いがあるのはなぜですか(確率的ですが、5%がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの) 。 2)両方のパッケージを使用する利点または欠点はありますか? 3)無関係:irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

2
同じグループにある2つのランダムに描画されたユニット間の予想される相関としてのICC
マルチレベルモデリングでは、クラス内相関はしばしば変量効果ANOVAから計算されます y私はj= γ00+ あなたj+ e私はjy私j=γ00+あなたはj+e私j y_{ij} = \gamma_{00} + u_j + e_{ij} ここで、はレベル2の残差、はレベル1の残差です。次に、u_jとe_ {ij}の分散についてそれぞれ推定値と\ hat {\ sigma} _e ^ 2を取得し、それらを次の式に代入します。あなたはjあなたはju_je私はje私je_{ij}σ^2あなたはσ^あなたは2\hat{\sigma}_u^2σ^2eσ^e2\hat{\sigma}_e^2あなたはjあなたはju_je私はje私je_{ij} ρ = σ^2あなたはσ^2あなたは+ σ^2eρ=σ^あなたは2σ^あなたは2+σ^e2 ρ = \frac{\hat{\sigma}_u^2}{\hat{\sigma}_u^2 +\hat{\sigma}_e^2} Hox(2002)はp15に次のように書いています。 クラス内相関ρは、同じグループ内にある2つのランダムに描画されたユニット間の予想される相関としても解釈できます。 質問がありますここで(それは、この代わりにほぼ等しいのとまったく同じである理由)高度な質問をし、先進的な答えを取得します。 ただし、もっと簡単な質問をしたいと思います。 質問:同じグループ内にある2つのランダムに描かれたユニット間の相関について話すことはどういう意味ですか? クラス内相関はペアのデータではなくグループで機能するという事実を基本的に理解しています。ただし、同じグループからランダムに描画された2つのユニットのみが相関関係を計算する方法を理解できません。たとえば、WikipediaページのICCのドットプロットを見ると、複数のグループと各グループ内の複数のポイントがあります。

4
これらの相関ベースの距離に対して、三角形の不等式は満たされていますか?
階層的クラスタリングの場合、2つのランダム変数XXXと間の距離を測定するために、次の2つの「メトリック」(正確には言えません)をよく目にしますYYY。 \newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align} d_1(X,Y) &= 1-|\Cor(X,Y)|, \\ d_2(X,Y) &= 1-(\Cor(X,Y))^2 \end{align} どちらかが三角形の不等式を満たしますか?もしそうなら、単に総当たり計算を行う以外にどのように証明する必要がありますか?それらがメトリックではない場合、簡単なカウンターの例は何ですか?

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
相互情報を使用して、連続変数とカテゴリー変数の間の相関を推定する
タイトルに関しては、MIの前後で相互変数を使用して、連続変数とカテゴリ変数の間の「相関」(「Bを知っているときにAについてどれだけ知っているか」と定義)を推定します。問題についての私の考えをすぐに説明しますが、アドバイスをする前に、CrossValidatedに関するこの他の質問/回答を読むことをお勧めします。 ここで、カテゴリ変数を統合できないため、連続変数を離散化する必要があります。これは、Rで非常に簡単に行うことができます。Rは、ほとんどの分析で使用した言語です。このcut関数は値をエイリアスするため、この関数を使用することを好みましたが、他のオプションも利用できます。ポイントは、離散化を行う前に、「ビン」(離散状態)の数をアプリオリに決定する必要があるということです。 ただし、主な問題は別の問題です。MIの範囲は0〜∞で、これは標準化されていない尺度であるため、単位はビットです。そのため、相関係数として使用することは非常に困難です。これは、MIの標準バージョンであるGCCの前後でグローバル相関係数を使用して部分的に解決できます。GCCは次のように定義されます。 参照:この式は、株式市場のグローバル化を分析するための非線形ツールとしての相互情報からのもので、AndreiaDionísio、Rui Menezes&Diana Mendes、2010年。 GCCの範囲は0〜1であるため、2つの変数間の相関を推定するために簡単に使用できます。問題は解決しましたか?まあ、ちょっと。このプロセスはすべて、離散化中に使用することにした「ビン」の数に大きく依存するためです。ここに私の実験の結果: y軸にはGCCがあり、x軸には離散化に使用することにした「ビン」の数があります。2行は、2つの異なる(非常によく似ていますが)データセットに対して行った2つの異なる分析を示しています。 一般的にはMI、特にGCCの使用についてはまだ議論の余地があるように思われます。しかし、この混乱は私の側からの間違いの結果かもしれません。どちらの場合でも、私は問題についてあなたの意見を聞きたいです(また、カテゴリ変数と連続変数との相関を推定する代替方法がありますか?)

2
ピアソンの相関検定のp値は、相関係数とサンプルサイズだけで計算できますか?
背景:著者は、著者がサンプルサイズ878からピアソン相関0.754を報告している1つの記事を読みました。相関テストの結果のp値は、「2つ星」有意です(つまり、p <0.01)。ただし、このような大きなサンプルサイズでは、対応するp値は0.001(3つ星が有意)未満である必要があると思います。 このテストのp値は、ピアソン相関係数とサンプルサイズだけから計算できますか? はいの場合、これをRでどのように行うことができますか?

3
相関係数または決定係数は、回帰直線に沿った値の割合に関連していますか?
相関rrrは、2つの変数間の線形関連性の尺度です。決定係数は、1つの変数の変動がどれだけ他の変数の「説明」できるかを示す尺度です。r2r2r^2 たとえば、が2つの変数間の相関である場合、です。したがって、一方の変動の64%は、他方の違いによって説明できます。正しい?r 2 = 0.64r=0.8r=0.8r = 0.8r2=0.64r2=0.64r^2 = 0.64 私の質問は、記載されている例では、次のステートメントのいずれかが正しいですか? 値の64%が回帰直線に沿っています 値の80%が回帰直線に沿って落ちます

2
正の相関係数と負の回帰係数記号
リグレッサーと応答(+0,43)の間に正の相関を取得し、その後、このリグレッサーの近似回帰モデルで負の係数を取得することは可能ですか? 私はいくつかのモデルの間でリグレッサーのサインの変化について話していません。係数の符号は常に残ります。 近似モデルの残りの変数は、符号の変更に影響を与える可能性がありますか?

1
ログに記録された変数を使用する理由
おそらく、これは非常に基本的な質問ですが、それに対する確固たる答えを見つけることができないようです。ここでできることを願っています。 現在、自分の修士論文の準備として論文を読んでいます。現在、ツイートと株式市場の特徴との関係を調査した論文を読んでいます。 彼らの仮説の1つでは、彼らは「ツイート量の増加は取引量の増加に関連している」と提案しています。 私は相関して、ペアワイズ相関で、それらを期待tweetVolumeしてtradingVolume、その代わりに、彼らはログに記録されたバージョンを使用してレポート:LN(tweetVolume)とLN(tradingVolume)。 私の論文のために、私は彼らの論文のこの部分を複製しました。6か月以上にわたって100社ほどのツイート(tweetVolume)と同じ期間の株式取引量を収集しました。絶対変数を相関させると見つけられますr=.282, p.000が、ログに記録されたバージョンを使用すると、が見つかりますr=.488, p=.000。 私は理解していない理由は、研究者が時々使用がその変数のバージョンをログに記録し、相関はそれほど高く、あなたがそうするならば、なぜそうです。ここでの理由は何ですか?また、ログに記録された変数を使用するのはなぜですか? あなたの助けは大歓迎です:-)

1
を2乗すると説明付きの分散が得られるのはなぜですか?
これは基本的な質問かもしれませんが、なぜ回帰モデルの値を単純に二乗して説明された分散の図を得ることができるのか疑問に思っていましたか?RRR 私は理解して係数は、関係の強さを与えることができますが、私は、この値を二乗すると説明された分散の尺度を与える方法を単に理解していません。RRR これの簡単な説明はありますか? これを手伝ってくれてありがとう!

2
ボリューム時系列の相関
次のグラフを検討してください。 赤い線(左軸)は、特定の株式の取引量を示しています。青い線(右軸)は、その株式のtwitterメッセージの量を示しています。例えば、5月9日(05-09)に約1億件の取引と4.000のツイートが行われました。 私は、同じ日またはラグのある時系列の間に相関があるかどうかを計算したいと思います-例えば:ツイート量は1日後に取引量と相関します。私はそのような分析を行った多くの記事を読んでいます。例えば、金融時系列とマイクロブログ活動との相関関係です。この記事には次のことが記載されています。 しかし、私は統計分析の経験がほとんどなく、私が持っているシリーズでこれを実行する方法がわかりません。私はSPSS(PASWとも呼ばれます)を使用しますが、質問は次のとおりです。上記のイメージの基礎となるデータファイルがある時点からこのような分析を行うための手順は何ですか?そのようなテストはデフォルトの機能(およびそれは何と呼ばれる)であるか、および/または他の方法でそれを実行できますか? どんな助けも大歓迎です:-)

2
スプリアス相関の期待値
我々は、描画NNN大きさの各サンプル、nnn独立して正常から、(μ,σ2)(μ,σ2)(\mu,\sigma^2)分布。 次に、NNNサンプルから、相互に最も高い(絶対)ピアソン相関を持つ2つのサンプルを選択します。 この相関の期待値は何ですか? ありがとう[PSこれは宿題ではない]


4
おそらく標準偏差がゼロのデータセットのピアソン相関?
標準偏差がゼロのデータセットのピアソン相関係数の計算に問題があります(つまり、すべてのデータの値が同じです)。 次の2つのデータセットがあるとします。 float x[] = {2, 2, 2, 3, 2}; float y[] = {2, 2, 2, 2, 2}; 相関係数「r」は、次の式を使用して計算されます。 float r = covariance(x, y) / (std_dev(x) * std_dev(y)); ただし、データセット「y」のすべてのデータは同じ値を持つため、標準偏差std_dev(y)はゼロになり、「r」は未定義になります。 この問題の解決策はありますか?または、この場合、他の方法を使用してデータ関係を測定する必要がありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.