タグ付けされた質問 「correlation」

変数のペア間の線形関連の度合いの尺度。

5
連続変数とカテゴリー変数(名義変数)の相関
連続(従属変数)変数とカテゴリ(名目:性別、独立変数)変数の間の相関関係を見つけたいと思います。連続データは通常は配布されません。以前は、スピアマンのを使用して計算していました。しかし、私はそれが正しくないと言われました。ρρ\rho インターネットで検索しているときに、箱ひげ図がそれらがどの程度関連付けられているかについてのアイデアを提供できることがわかりました。ただし、ピアソンの積率係数やスピアマンのなどの定量化された値を探していました。これを行う方法について私を助けてもらえますか?または、どの方法が適切かを教えてください。ρρ\rho Point Biserial Coefficientは正しいオプションでしょうか?

9
相関は因果関係を意味するものではありません。しかし、変数の1つが時間である場合はどうでしょうか。
私はこの質問が10億回も聞かれたことを知っているので、オンラインで調べた後、2つの変数間の相関は因果関係を意味しないと完全に確信しています。今日の統計講義の1つで、物理学における統計的手法の重要性について、物理学者からゲスト講義を受けました。彼は驚くべき声明を述べた: 相関は因果関係を意味するものではなく、変数の1つが時間である場合を除きます。したがって、いくつかの独立変数と時間の間に強い相関がある場合、これは因果関係も意味します。 この声明を聞いたことがありません。物理学者/相対論者は「因果関係」を統計の人々とは異なるものと見ていますか?


3
ランダムフォレストと極端にランダム化されたツリーの違い
ランダムフォレストと極端にランダム化されたツリーは、ランダムフォレスト内のツリーの分割が決定論的であるという意味で異なりますが、極端にランダム化されたツリーの場合はランダムです(より正確には、次の分割が最適な分割です現在のツリーの選択された変数のランダムな均一な分割の間で)。しかし、私はさまざまな状況でのこの異なる分割の影響を完全には理解していません。 彼らはバイアス/分散の観点からどのように比較しますか? 無関係な変数が存在する場合、それらはどのように比較されますか? 相関変数の存在下でどのように比較しますか?

5
関係及び相関係数
2つの1次元配列とます。それぞれに100個のデータポイントが含まれます。は実際のデータであり、はモデル予測です。この場合、値は次のようになります それまでの間、これは相関係数の二乗値に等しくなり 2つを入れ替えると、は実際のデータであり、はモデル予測です。方程式から、相関係数はどちらが先かを気にしないため、a1a1a_1a2a2a_2a1a1a_1a2a2a_2R2R2R^2R2=1−SSresSStot (1).R2=1−SSresSStot (1). R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \quad\quad\quad\quad\quad\ \ \quad\quad(1). R2=(Correlation Coefficient)2(2).R2=(Correlation Coefficient)2(2). R^2 = (\text{Correlation Coefficient})^2 \quad (2). a2a2a_2a1a1a_1(2)(2)(2)R2R2R^2値は同じです。しかし、式から、、値が変化する、ため我々が切り替えると変更されたからと。それまでの間、は変更されません。(1)(1)(1)SStot=∑i(yi−y¯)2SStot=∑i(yi−y¯)2SS_{tot}=\sum_i(y_i - \bar y )^2R2R2R^2SStotSStotSS_{tot}yyya1a1a_1a2a2a_2SSres=∑i(fi−y¯)2SSres=∑i(fi−y¯)2SS_{res}=\sum_i(f_i-\bar y)^2 私の質問は次のとおりです。これらは互いに矛盾することができますか? 編集: 方程式の関係はどうなるのだろうと思っていました。(2)単純な線形回帰でない場合、つまり、IVとDVの関係が線形ではない場合(指数関数/対数) 予測誤差の合計がゼロに等しくない場合、この関係はまだ維持されますか?

9
このプロットの
次のプロットのYYYとXの関係は何XXXですか?私の見解では、負の線形関係がありますが、多くの外れ値があるため、関係は非常に弱いです。私は正しいですか?散布図をどのように説明できますか。

1
手動で計算された
これはかなり具体的なR質問であることはわかっていますが、説明する割合の分散について考えているかもしれません。について間違っている。ここに行きます。R2R2R^2 私は使用しようとしています RパッケージますrandomForest。トレーニングデータとテストデータがあります。ランダムフォレストモデルを当てはめると、このrandomForest関数を使用して、テストする新しいテストデータを入力できます。次に、この新しいデータで説明された分散の割合を示します。これを見ると、1つの数字が得られます。 predict()関数を使用して、トレーニングデータからのモデルフィットに基づいてテストデータの結果値を予測し、これらの値とテストデータの実際の結果値の異なる数値が得られます。これらの値は一致しません。 R問題を示すためのコードを次に示します。 # use the built in iris data data(iris) #load the randomForest library library(randomForest) # split the data into training and testing sets index <- 1:nrow(iris) trainindex <- sample(index, trunc(length(index)/2)) trainset <- iris[trainindex, ] testset <- iris[-trainindex, ] # fit a model to the training set …

1
MantelのテストがMoranのIよりも優先されるのはなぜですか?
Mantelのテストは、動物の空間的分布(空間内の位置)と、たとえば遺伝的関連性、攻撃率、またはその他の属性との相関関係を調べるために、生物学的研究で広く使用されています。多くの優れたジャーナルがそれを使用しています( PNAS、動物行動、分子生態学...)。 自然界で発生する可能性のあるパターンをいくつか作成しましたが、マンテルのテストはそれらを検出するのにまったく役に立たないようです。一方、モランの私はより良い結果を得ました(各プロットの下のp値を参照)。 なぜ科学者はモランのIを代わりに使用しないのですか?見えない隠れた理由はありますか?そして、何らかの理由がある場合、マンテル検定またはモラン検定を適切に使用するためにどのように知ることができますか(仮説をどのように構成する必要があるか)?実際の例が役立ちます。 この状況を想像してください。カラスが各木に座っている果樹園(17 x 17本)があります。各カラスの「ノイズ」のレベルが利用可能であり、カラスの空間分布が彼らが作るノイズによって決定されるかどうかを知りたいです。 (少なくとも)5つの可能性があります。 「羽の鳥が集まってきます。」カラスが似ているほど、それらの間の地理的距離は小さくなります(単一クラスター)。 「羽の鳥が集まってきます。」繰り返しますが、似ているカラスは、それらの間の地理的距離が小さくなります(複数のクラスター)が、ノイズの多いカラスの1つのクラスターは、2番目のクラスターの存在に関する知識を持ちません(そうでなければ、1つの大きなクラスターに融合します) 「単調トレンド。」 「反対は引き付ける。」同様のカラスは互いに立つことができません。 「ランダムパターン。」ノイズのレベルは、空間分布に大きな影響を与えません。 それぞれの場合について、ポイントのプロットを作成し、マンテル検定を使用して相関を計算しました(その結果が重要でないことは驚くことではありません。そのようなポイントのパターン間の線形関連を見つけることは決してありません)。 サンプルデータ:( 可能な限り圧縮) r.gen <- seq(-100,100,5) r.val <- sample(r.gen, 289, replace=TRUE) z10 <- rep(0, times=10) z11 <- rep(0, times=11) r5 <- c(5,15,25,15,5) r71 <- c(5,20,40,50,40,20,5) r72 <- c(15,40,60,75,60,40,15) r73 <- c(25,50,75,100,75,50,25) rbPal <- colorRampPalette(c("blue","red")) my.data <- data.frame(x …

2
平易な英語の複合対称性とは何ですか?
私は最近、実現します混合モデルの相関構造を複合対称に設定すると、ランダムファクターとしてのサブジェクトのみと固定ファクターとしての他のファクターを持つ混合モデルはANOVAと同等であるわかりました。 したがって、混合(つまり、分割プロット)分散分析のコンテキストで複合対称性が何を意味するかを知りたいと思います。 複合対称性に加えlmeて、次のような他のタイプの相関構造を提供します corSymm 追加の構造のない一般的な相関行列。 または異なるタイプの空間相関。 したがって、設計された実験のコンテキストで(被験者間および被験者内因子を使用して)使用することが推奨される他のタイプの相関構造について、関連する質問がありますか? 答えが異なる相関構造のいくつかの参照を指すことができれば素晴らしいでしょう。

4
XとYは相関していませんが、Xは重回帰におけるYの重要な予測因子です。どういう意味ですか?
XとYは相関していません(-.01)。ただし、Yを予測する重回帰にXを配置すると、3つの(A、B、C)他の(関連する)変数とともに、Xと2つの他の変数(A、B)がYの有意な予測子になります。 A、B)変数は回帰の外側でYと有意に相関しています。 これらの調査結果をどのように解釈すればよいですか?XはYの一意の分散を予測しますが、これらは相関関係がないため(ピアソン)、解釈が多少困難です。 私は反対のケースを知っています(つまり、2つの変数は相関していますが、回帰は重要ではありません)。それらは理論的および統計的観点から理解するのが比較的簡単です。予測子の一部は完全に相関しています(たとえば、.70)が、実質的な多重共線性が期待される程度ではないことに注意してください。たぶん私は間違っています。 注:以前にこの質問をしましたが、終了しました。合理的なのは、この質問が「どのように回帰が有意であるが、すべての予測変数が有意でない可能性があるのか​​」という質問と重複しているということでした。「おそらく、私は他の質問を理解していないが、これらは数学的にも理論的にも完全に別個の質問だと思う。私の回帰は「回帰が重要」かどうかから完全に独立している。これらの質問が理解できない理由で冗長な場合は、この質問を閉じる前にコメントを挿入してください。また、もう一方を閉じたモデレーターにメッセージを送りたいと思っていました同一の質問を回避するための質問ですが、そうするオプションを見つけることができませんでした。

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
従属変数の積の分散
従属変数の積の分散の式は何ですか? 独立変数の場合、式は単純です: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 しかし、相関変数の式は何ですか? ところで、統計データに基づいて相関関係を見つけるにはどうすればよいですか?

6
「相関関係が因果関係を意味しない」場合、統計的に有意な相関関係が見つかった場合、どのようにして因果関係を証明できますか?
相関関係は因果関係ではないことを理解しています。2つの変数間に高い相関関係があると仮定します。この相関関係が実際に原因であるかどうかをどのように確認しますか?または、どのような条件下で、正確に、実験データを使用して2つ以上の変数間の因果関係を推測できますか?

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
相関行列のSVDは加算的である必要がありますが、
次の論文で見つかった主張を再現しようとしています。GeneExpression Dataからの相関バイクラスターの検索です。 命題4.。次にあります:バツ私J= R私CTJXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} 私。場合加法モデルと完全bicluster、次いで列の相関を持つ完全biclusterあります。 ii。が加法モデルを備えた完全な双である場合、は行に相関がある完全な双クラスターです。 iii。と両方が加法モデルを備えた完全な双クラスターである場合、は完全な相関双クラスターです。 X I J C J X I J R I C J X I JR私RIR_{I}バツ私JXIJX_{IJ}CJCJC_Jバツ私JXIJX_{IJ}R私RIR_ICJCJC_Jバツ私JXIJX_{IJ} これらの命題は簡単に証明できます... ...しかし、もちろん、彼らはそれを証明しません。 この命題を実証できるかどうかを確認するために、紙に書かれた簡単な例とベース+カスタムRコードを使用しています。 corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4) (表1Fから) 論文で説明されているように、標準X = svdフォームをに変換するカスタムコード: X = R C TうんdVTUdVTUdV^Tバツ= R CTX=RCTX=RC^{T} svdToRC <- function(x, ignoreRank = FALSE, r = length(x$d), zerothresh=1e-9) …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.