統計とビッグデータ spearman-rho

2

フリッツ、モリス、及びRichler（2011;下記参照）によれば、式を使用してマン・ホイットニーU検定のための効果の大きさとして算出することができるこれは便利であることを私、他の機会にもを報告します。効果の大きさの尺度に加えて、の信頼区間を報告したいと思います。rrrr=zN−−√r=zN r = \frac{z}{\sqrt N} rrrrrr 私の質問は次のとおりです。ピアソンのrのようにrの信頼区間を計算できますが、ノンパラメトリック検定の効果サイズの尺度として使用されますか？片側検定と両側検定の場合、どの信頼区間を報告する必要がありますか？ 2番目の質問に関する編集：「片側検定と両側検定の場合、どの信頼区間を報告する必要がありますか？」私は、私見がこの質問に答えるかもしれないいくつかの情報を見つけました。「両側の信頼限界は信頼区間を形成しますが、片側の信頼限界は信頼限界の下限または上限と呼ばれます。」（http://en.wikipedia.org/wiki/Confidence_interval）。この情報から、有意性検定（たとえば、）が片側か両側かは主な問題ではなく、影響の大きさのCIに関してどのような情報に関心があるかを結論付けます。私の結論（あなたが同意しない場合は私を修正してください）：ttt 両側CI →→\rightarrow上限と下限に関心（結果として、両側CIが0を伴う可能性がありますが、有意性の片側検定はp <.05でしたが、特に値が。 05.）片側の「CI」→→\rightarrow上限または下限にのみ関心がある（理論的推論による）; ただし、これは必ずしも有向仮説をテストした後の主な関心事ではありません。エフェクトサイズの可能な範囲に焦点が当てられている場合、両面CIは完全に適切です。正しい？上記の記事からのMann-Whitney検定の効果サイズの見積もりに関するFritz、Morris、＆Richler（2011）の文章の一節については、以下を参照してください。「ここで説明したエフェクトサイズの推定値のほとんどは、データが正規分布を持っていることを前提としています。ただし、一部のデータはパラメトリックテストの要件を満たしていません。通常は、Mann-WhitneyやWilcoxon検定などのノンパラメトリック統計検定を使用しますこれらの検定の有意性は、通常、標本サイズが小さすぎない場合の検定統計の分布を分布に近似することで評価されます。これらのテストを実行するSPSSなどのパッケージは、または値に加えて適切な値を報告します;zzzzzzうんうんUTTTzzz手動で計算することもできます（例：Siegel＆Castellan、1988）。値は、次のような、効果の大きさを計算するために使用され得るコーエン（1988）によって提案されました。Cohenのrに関するガイドラインでは、大きな効果は0.5、中程度の効果は.3、小さな効果は.1です（Coolican、2009、p。395）。、を計算するのは簡単ですzzzrrrrrrr2r2r^2、又はこれらからZ値ので、R = Zη2η2\eta^2zzz および r2r = zN−−√r=zN r = \frac{z}{\sqrt N} これらの効果サイズの推定値は、式にNが含まれているにもかかわらず、サンプルサイズに依存しません。これは、zがサンプルサイズに敏感だからです。Nの関数で除算すると、結果の効果サイズの推定値からサンプルサイズの効果が削除されます。 "（p。12）r2O Rη2= z2Nr2orη2=z2N r^2\quad{\rm or}\quad \eta^2 = \frac{z^2}{N}

13 confidence-interval effect-size wilcoxon-mann-whitney spearman-rho

1

スピアマンの相関係数の差に関する有意性検定

（迅速な対応に感謝します！私は質問をするのが下手だったので、再試行させてください。） 2つのスピアマンの相関の差が統計的に有意であるかどうかを調べる方法がわかりません。私はそれを見つける方法を知りたいです。私が見つけたかった理由は、ガブリロビッチとマルコビッチによる自然言語処理のためのウィキペディアベースの意味解釈（Journal of Artificial Intelligence Research 34（2009）443-498）です。表2（p。457）で、著者は自分の方法（ESA-Wikipedia）が他の方法よりも高い統計的に有意なスピアマンの相関関係を達成していることを示しています。いくつかの問題の方法。私は彼らがどのように統計的有意性を計算したのか知りません、そして私は知りたいです。この論文の著者は、スピアマンの順位相関はピアソンの相関として扱われていると述べました。それが正しい方法かどうかはわかりません。私は2つのスピアマンの相関があり、それらの差が統計的に有意であるかどうかを知りたいです。 http://faculty.vassar.edu/lowry/rdiff.htmlなどのWebサイトが、2つのピアソンの相関関係の違いを取得するためのオンライン計算機を提供していることを認識しています。2つのスピアマンの相関関係の違いについて、同様のオンライン計算機を見つけることができません。 Peter Flomが提供するリンクのソリューション注：手順では、0.6未満のスピアマンの相関関係のみがサポートされています。ましょ =フィッシャー組の観察された相関の変換A、 Z B =フィッシャー組の観察された相関の変換B。zAzAz_AAAAzBzBz_BBBB 以下のための、聞かせて、Y Aは、I = N 、Z A - （N - 1 ）Z A '、I、Z A ' iはフィッシャーセットの変換であるAにより得られた一左アウト相関の（x i、y i）の削除、再ランキング、および相関の再計算。（各Z A ' iがに基づいて、N -i = 1 、… 、n私=1、…、ni = 1,\dots,nyA私= n …

13 hypothesis-testing statistical-significance spearman-rho

1

スピアマンの順位相関の信頼区間を計算する方法は？

ウィキペディアには、スピアマンの順位相関を近似Zスコアにフィッシャー変換しています。おそらく、Zスコアは帰無仮説（ランク相関0）との違いですか？このページには次の例があります。 4, 10, 3, 1, 9, 2, 6, 7, 8, 5 5, 8, 6, 2, 10, 3, 9, 4, 7, 1 rank correlation 0.684848 "95% CI for rho (Fisher's z transformed)= 0.097085 to 0.918443" Fisher変換を使用して95％信頼区間を取得する方法

13 correlation spearman-rho

1

RのPROC Mixedとlme / lmerの違い-自由度

注：法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。次のデータセットから開始します（以下のRコード）。 ind：測定が行われる個人を示す因子 fac：測定が行われる臓器 trt：治療を示す因子 y：連続応答変数アイデアは、次の単純なモデルを構築することです： y ~ trt + (ind)：indランダムな要因として y ~ trt + (fac(ind))：facにネストされたindランダムな要因として、最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

2

スピアマンの相関がピアソンよりも明確な量が少ない場合、それは何を示していますか？

関連するデータセットがたくさんあります。それらのペア間のピアソン相関は通常、スピアマン相関よりも明らかに大きくなります。これは、相関関係が線形であることを示唆していますが、ピアソンとスピアマンが同じであったとしても、予想されるかもしれません。ピアソンとスピアマンの相関関係に明確なギャップがあり、ピアソンが大きい場合、それはどういう意味ですか？これは、私のデータセット全体で一貫した機能のようです。

12 correlation spearman-rho pearson-r

2

ランク付けされたデータ（スピアマン相関）の回帰直線をプロットすることは「大丈夫」ですか？

スピアマン相関を計算したデータがあり、それを出版物のために視覚化したいと思います。従属変数はランク付けされますが、独立変数はランク付けされません。視覚化したいのは、実際の勾配よりも一般的な傾向なので、独立性をランク付けし、スピアマンの相関/回帰を適用しました。しかし、自分のデータをプロットし、それを自分の原稿に挿入しようとしたとき、私は（このWebサイトで）このステートメントに出くわしました。スピアマンの順位相関を行う場合、説明や予測に回帰直線を使用することはほとんどないため、回帰直線に相当する値を計算しないでください。以降線形回帰または相関の場合と同じ方法で、スピアマンの順位相関データをグラフ化できます。ただし、グラフに回帰直線を置かないでください。ランク相関で分析した場合、グラフに線形回帰直線を配置すると誤解を招く恐れがあります。問題は、回帰直線は、独立をランク付けしてピアソン相関を計算しない場合とそれほど変わらないということです。傾向は同じですが、ジャーナルのカラーグラフィックの法外な料金のために、モノクロ表現で行ったので、実際のデータポイントがあまりにも重なりすぎて認識できません。もちろん、これを回避するには、2つの異なるプロットを作成します。1つはデータポイント（ランク付け）、もう1つは回帰直線（ランク付けなし）ですが、引用したソースが間違っているか問題であることが判明した場合私の場合はそれほど問題ではありませんが、それは私の人生を楽にします。（私もこの質問を見ましたが、それは私を助けませんでした。）追加情報を編集： x軸の独立変数はフィーチャの数を表し、y軸の従属変数は分類アルゴリズムがパフォーマンスで比較された場合のランクを表します。これで、平均的に比較できるアルゴリズムがいくつかありますが、プロットで言いたいのは、「分類子Aはより多くの特徴が存在するほど良くなり、分類子Bはより少ない特徴が存在するときに良くなる」のようなものです。 2を編集してプロットを含めます。プロットされたアルゴリズムのランクと特徴の数プロットされたアルゴリズムのランクとランク付けされた機能の数したがって、タイトルから質問を繰り返すには：スピアマンの相関/回帰のランク付けされたデータの回帰直線をプロットしても問題ありませんか？

11 regression data-visualization spearman-rho ordered-logit isotonic

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

正規性の仮定にもかかわらず、ランクのピアソン相関が有効なのはなぜですか？

私は現在、ピアソン相関の仮定について読んでいます。次のt検定の重要な仮定は、両方の変数が正規分布に由来することです。そうでない場合は、Spearman rhoなどの代替手段の使用が推奨されます。スピアマン相関はピアソン相関のように計算され、XとY自体の代わりにXとYのランクを使用するだけですよね？私の質問は、ピアソン相関への入力変数を正規分布する必要がある場合、入力変数がランクであるにもかかわらず、スピアマン相関の計算が有効なのはなぜですか？私のランクは確かに正規分布からのものではありません... これまでに出てきた唯一の説明は、ローの有意性はピアソン相関t検定のそれとは異なる方法で検定される可能性があることです（正規性を必要としない方法で）が、これまでのところ式は見つかりませんでした。ただし、いくつかの例を実行した場合、rhoおよびランクのピアソン相関のt検定のp値は常に一致し、最後の数桁を除いて保存します。私にとって、これは画期的に異なる手順のようには見えません。あなたが持っているかもしれないどんな説明やアイデアもいただければ幸いです！

9 correlation normality-assumption spearman-rho ranks

1

順序付けられたデータの相関係数：ケンドールのタウvsポリコリックvsスピアマンのrho

順序付けられた測定を使用して管理する場合、研究者は通常ポリコリック相関を扱います。（例えば、因子分析を行う前に行列を作成する場合。）なぜそうするのですか？ケンドールタウの順位相関係数とスピアマンの順位相関係数も、順序付けられたデータに適しています。これらの相関係数の「賛成」と「反対」の点は大歓迎です。

9 correlation ordinal-data spearman-rho kendall-tau polychoric

1

訓練されたニューラルネットワークの相関の測定

非正規分散データを使用して人工ニューラルネットワーク（バックプロパゲーション、フィードフォワード）をトレーニングしています。二乗平均平方根誤差のほかに、文献は、訓練されたネットの品質を評価するためのピアソン相関係数をしばしば示唆しています。しかし、訓練データが正規分布されていない場合、ピアソン相関係数は妥当ですか？ランクベースの相関測定、たとえばスピアマンローを使用することは、より合理的ではないでしょうか？

9 correlation neural-networks spearman-rho

1

スピアマンの相関とケンドールの相関の違いを束縛する

私は、スピアマンの相関とケンドールの相関の差が1以下であることを証明または証明しようとしています。結びつきはないと思います。反例を使用して結果を反証する試みで、長さ8のベクトルのすべての可能性をチェックしました。差：この場合、差は決して0.4を超えないので、本当だと思いますが、証明できませんでした。

9 correlation spearman-rho kendall-tau

3

SPSSを使用した2x3混合設計ANOVAの事後テスト？

実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group（コントロール、実験）、time（最初、2、3）、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です！記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。どう思いますか？どちらが正しい方法でしょうか？

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

1

2つの変数の合計のスピアマン相関に限界はありますか？

与えられた -vectorsはのスピアマン相関係数ように及びある、のスピアマン係数に限界が知られているとの観点から、（そしておそらく）？つまり、ような自明ではない）関数見つけることができます、X 、Y 1、Y 2、X 、Y 、I ρ I = ρ （X 、Y I）xは、Y 1 + Y 2 ρ I N L （ρ 1、ρ 2、N ）、U （ρ 1、ρ 2、N ）L （ρ 1、ρ 2、N ）nnnx,y1,y2x,y1,y2x, y_1, y_2xxxyiyiy_iρi=ρ(x,yi)ρi=ρ(x,yi)\rho_i = \rho(x,y_i)xxxy1+y2y1+y2y_1 + y_2ρiρi\rho_innnl(ρ1,ρ2,n),u(ρ1,ρ2,n)l(ρ1,ρ2,n),u(ρ1,ρ2,n)l(\rho_1,\rho_2,n), u(\rho_1,\rho_2,n)l(ρ1,ρ2,n)≤ρ(x,y1+y2)≤u(ρ1,ρ2,n)l(ρ1,ρ2,n)≤ρ(x,y1+y2)≤u(ρ1,ρ2,n)l(\rho_1,\rho_2,n) \le \rho(x,y_1+y_2) \le u(\rho_1,\rho_2,n) 編集：コメントの@whuberの例によれば、一般的なケースでは、自明な境界のみを作成できるようです。したがって、私はさらに制約を課したいと思います：l=−1,u=1l=−1,u=1l = -1, u …

8 correlation spearman-rho bounds

3

共分散とスピアマンのローのサイン

2つの変数間の共分散が常に SpearmanのRhoと同じ符号であるという証明、または両方がゼロでないと仮定した人、またはこれが当てはまらない理由を示す説明/反例はありますか？私は「母集団」（理論的）の大きさについて話しているのであって、それらのサンプルの対応物について話しているのではありません。つまり、場合、分布関数があり、必要なすべてのモーメント、コモーメントなどが存在する2つの確率変数が存在します。X,YX,YX, YFX,FYFX,FYF_X, F_Y Cov(X,Y)=E(XY)−E(X)E(Y)Cov(X,Y)=E(XY)−E(X)E(Y)\text{Cov}(X,Y) = E(XY) - E(X)E(Y) while ρs(X,Y)=Cov[FX(X),FY(Y)]ρs(X,Y)=Cov[FX(X),FY(Y)]\rho_s(X,Y) = \text{Cov}[F_X(X),F_Y(Y)] 私があればということを知っている（依存クアドラントある）、正または負、これは確かに、保持していますX,YX,YX,YQDQDQD (X,Y)=QD⟹sign{Cov(X,Y)}=sign{ρs(X,Y)}(X,Y)=QD⟹sign{Cov(X,Y)}=sign{ρs(X,Y)}(X,Y) = QD \implies \text{sign}\left\{\text{Cov}(X,Y)\right\} = \text{sign}\left\{\rho_s(X,Y)\right\} ...再度、両方がゼロでない場合。しかし、を確立できない、または保持できない場合はどうなりますか？QDQDQD 私は最終的に後の午前する証拠である場合の増加単調変換である、次に。これは非常に直感的で「自明」であるように見えることは知っていますが、そのような証拠をどこにも見つけることができず、自分で証明することもできませんでした。より正確には、私が示したいのは、両方がゼロでなければ、反対の符号を持つことはできないということです。h(Y)h(Y)h(Y)YYYsign{Cov(X,Y)}=sign{Cov(X,h(Y))}sign{Cov(X,Y)}=sign{Cov(X,h(Y))}\text{sign}\left\{\text{Cov}(X,Y)\right\} = \text{sign}\left\{\text{Cov}(X,h(Y))\right\} ここで、スピアマンのローは単調変換に対して不変なので、があるので、共分散の「同じ符号」の結果を証明する方法は、共分散が常にスピアマンのローと同じ符号を持っていることを証明するため、この質問。ρs(X,Y)=ρs(X,h(Y))ρs(X,Y)=ρs(X,h(Y))\rho_s(X,Y) = \rho_s(X,h(Y)) と定義を「非常に近い」ものにするW. Hoeffdingによる共分散の古い美しい式を見つけましたが、象限依存を仮定しないと一般的なステートメントを証明できませんでした。CovCov\text{Cov}ρsρs\rho_s もちろん、誰かが共分散の「同じ符号」（望ましい）結果に直接何かを持っている場合、それは同様に役立ちます。更新私は関連しているが同一ではないこの質問を見つけました。すでに述べたように、それは私の質問を次のように変更します：「両方のメジャーがゼロでないと仮定します。それらは反対の符号を持つことができますか？」

8 covariance non-independent spearman-rho

タグ付けされた質問 「spearman-rho」

タグ付けされた質問「spearman-rho」