タグ付けされた質問 「correlation」

変数のペア間の線形関連の度合いの尺度。

1
相関コンポーネントを持つシンプレックスの分布
コンポーネントが通常の方法で相関しているシンプレックス上のある種の分布を探しています。場合は、されていることを単純に私たちの分布から引き出され、私は希望のpを私は積極的にその隣人と相関することがp個のI + 1とP I - 1、と言います。バニラディリクレは明らかにこの要件を満たすことができません。私が考える1つのオプションは、ディリクレ分布の混合です。たとえば、J = 4の場合、Dを取ることができますp = (p1、。。。、pJ)p=(p1,...,pJ)p = (p_1, ..., p_J)p私pip_ipi + 1pi+1p_{i + 1}pi − 1pi−1p_{i - 1}J= 4J=4J = 4または相関を誘導するために似たような、もう少し何かがある場合、私は思ったんだけどナチュラル。私が思う別のオプションは、上の任意の分布取ることです { 1 、2 、。。。、J }、 f (j | ηD(1、1、0、0)+ D(0、1、1、0)+ D(0、0、1、1)D(1,1,0,0)+D(0,1,1,0)+D(0,0,1,1)\mathcal D(1, 1, 0, 0) + \mathcal D(0, 1, 1, 0) + \mathcal D(0, 0, …

1
多肢選択試験での盗作の検出
選択的試験中に、ある生徒が別の生徒の論文から回答をコピーした疑いがあることを調査官が想定したとします。彼女は後で回答を確認し、いくつかの類似点を見つけます。一方、試験の性質上、類似点は必ずあります。彼女は自分の疑いが見つかったかどうかをどのように判断すべきですか? 言い換えれば、彼女は試験を他の学生(私たちが想定しているとすれば、浮気ではなかった)の試験と比較する必要があります。しかし、クラスのサイズが非常に大きい場合、比較のためにランダムサンプリングを取るのが妥当でしょうか。それから彼女はいくつ取るでしょう?試験に多くの質問があった場合、比較のために質問のサンプルをとることも理にかなっていますか?それぞれの質問に2つの回答(true / false)があったか、たとえば4であったかは、重要な違いになりますか? これが一般的にどのように機能するのか疑問に思っているので、具体的な数値はありません。私は数学のバックグラウンドがありますが、統計のトレーニングはほとんどありません。この分析を統計的にどのように説明しますか? ありがとうございました。

3
ピアソン相関係数の基礎
ピアソン相関係数は、式を使用して計算されます。この式には、2つの変量とが相関しているかどうかの情報がどのように含まれていますか?または、相関係数のこの式をどのように取得しますか? XYr = c o v (X、Y)v a r (X)√v a r (Y)√r=cov(X,Y)var(X)var(Y)r = \frac{cov(X,Y)}{\sqrt{var(X)} \sqrt{var(Y)}}バツXXYYY

7
2つの変数間の任意の非線形関係の強度を測定する方法は?
2つのペア変数間の任意の非常に非線形な関係の強さを測定する方法は何ですか?非常に非線形とは、既知のモデルへの回帰によって、合理的または確実にモデル化できない関係を意味します。私は特に時系列に興味がありますが、2変量データで機能するものはすべてここで機能すると思います(2つの時系列をペアのデータポイントのセットとして扱う場合)。 私が知っている2つは、平均二乗差(つまり、平均二乗誤差、1つの時系列を「期待される」値として扱い、もう1つを観測値として扱う)、および距離共分散です。他には何がありますか? 明確化:私は基本的にシリーズ間の依存関係について尋ねています。線形相関または単純な非線形相関(log、exp、trig、その他の単純な分析変換後)はあまり意味がありません。

1
継続的な臨床変数と遺伝子発現データの相関
各ケースとコントロールの〜25の遺伝子発現(〜400変数/遺伝子)のデータセットのSVM(線形カーネル)分類分析では、遺伝子発現ベースの分類子が非常に優れたパフォーマンス特性を持っていることがわかりました。ケースとコントロールは、(フィッシャーの正確確率検定またはt検定に従って)多数のカテゴリー的および継続的な臨床/人口統計学的変数について有意差はありませんが、年齢については有意差があります。 分類分析の結果が年齢の影響を受けているかどうかを示す方法はありますか? 遺伝子発現データを主成分に減らし、年齢に対する成分のスピアマン相関分析を行うことを考えています。 これは合理的なアプローチですか?または、SVM分析で得られた年齢とクラスメンバーシップの確率値の相関関係を確認できますか。 ありがとう。

1
ギャップが大きい(データが欠落している)場合に使用する必要がある相関測定はどれですか?
私は年齢(6〜90歳)と声の大きさ(dB)を関連付けようとしています。ただし、私のデータには、20〜50年の範囲のデータポイントが含まれていません。 このようなかなりのギャップがある場合、どの相関測定が最も適切ですか。なぜですか。今までKendall Tauを使ってきました。 ここでは、バイモーダルに分散されたデータは扱っていませんが、年齢範囲のデータギャップが大幅に不足していることに注意してください。

1
サンプル相関の分布
データポイント大きな母集団があり、ピアソンの相関が(x 、y)(x,y)(x,y) コア(X、Y)= ρcorr(X,Y)=ρ\textrm{corr}(X,Y) = \rho サイズサンプルで観察すると予想される相関関係について、合理的に何が言えるでしょうか?サンプル相関がある場合にはρ sの、おおよその広がりがあるものであるρ sの?されρはsのバイアス?んnnρsρs\rho_sρsρs\rho_sρsρs\rho_s 私たちは正規のようないくつかの仮定をした場合、我々は正確な尤度関数を計算することができの関数としてρ?ρsρs\rho_sρρ\rho (結局のところ、観測された高い相関関係がまぐれであるかどうかという問題について疑問に思っています。私が持っているのは、サンプルサイズと相関関係だけです。)

1
2つの変数の合計のスピアマン相関に限界はありますか?
与えられた -vectorsはのスピアマン相関係数ように及びある、のスピアマン係数に限界が知られているとの観点から、(そしておそらく)?つまり、ような 自明ではない)関数見つけることができます、X 、Y 1、Y 2、X 、Y 、I ρ I = ρ (X 、Y I)xは、Y 1 + Y 2 ρ I N L (ρ 1、ρ 2、N )、U (ρ 1、ρ 2、N )L (ρ 1、ρ 2、N )nnnx,y1,y2x,y1,y2x, y_1, y_2xxxyiyiy_iρi=ρ(x,yi)ρi=ρ(x,yi)\rho_i = \rho(x,y_i)xxxy1+y2y1+y2y_1 + y_2ρiρi\rho_innnl(ρ1,ρ2,n),u(ρ1,ρ2,n)l(ρ1,ρ2,n),u(ρ1,ρ2,n)l(\rho_1,\rho_2,n), u(\rho_1,\rho_2,n)l(ρ1,ρ2,n)≤ρ(x,y1+y2)≤u(ρ1,ρ2,n)l(ρ1,ρ2,n)≤ρ(x,y1+y2)≤u(ρ1,ρ2,n)l(\rho_1,\rho_2,n) \le \rho(x,y_1+y_2) \le u(\rho_1,\rho_2,n) 編集:コメントの@whuberの例によれば、一般的なケースでは、自明な境界のみを作成できるようです。したがって、私はさらに制約を課したいと思います:l=−1,u=1l=−1,u=1l = -1, u …

3
クラス内の相関と集約
想像してみろ: それぞれに10メンバーの1000チームのサンプルがあります。 信頼できる複数項目の数値スケールを使用して、チームが機能していると各チームメンバーにどれだけ考えているかを尋ねて、チームの機能を測定しました。 チームの有効性の測定が、チームメンバーの特異な信念の特性であるか、またはチームに関する共有された信念の特性である範囲を説明する必要があります。 この状況および関連する状況(組織への集計など)では、多くの研究者がクラス内相関を報告します(たとえば、Campion&Medskerの表1、1993)。したがって、私の質問は次のとおりです。 クラス内相関のさまざまな値にどの説明ラベルを付けますか?つまり、クラス内相関の値を次のような定性的な言語に実際に関連付けることを目的としています。 クラス内相関は適切な統計だと思いますか、それとも別の戦略を使用しますか?

2
「テキスト」と「データ」の間の統計的相関の自動化
特定の企業の製品やパフォーマンスに関するプレスリリース、ブログ投稿、レビューなどに関するテキストデータを収集しています。 具体的には、そのような「テキスト」コンテンツの特定のタイプやソースと、会社の銘柄記号の市場評価との間に相関関係があるかどうかを確認したいと考えています。 このような明らかな相関関係は、人間の心でかなり早く見つけることができますが、それはスケーラブルではありません。このような異種ソースの分析を自動化するにはどうすればよいですか?

1
Silver&Dunlap 1987の複製がうまくいかないのはなぜですか?
Silver&Dunlap(1987)を複製しようとしています。私は単に平均相関を比較している、または平均z変換相関と逆変換を比較しています。彼らが見つけたバイアスの非対称性を再現していないようです(逆変換されたzはrsよりも母集団の値に近くありません)。何かご意見は?1987年のコンピューティング能力が十分に空間を探索しなかった可能性はありますか? # Fisher's r2z fr2z <- atanh # and back fz2r <- tanh # a function that generates a matrix of two correlated variables rcor <- function(n, m1, m2, var1, var2, corr12){ require(MASS) Sigma <- c(var1, sqrt(var1*var2)*corr12, sqrt(var1*var2)*corr12, var2) Sigma <- matrix(Sigma, 2, 2) return( mvrnorm(n, c(m1,m2), Sigma, empirical=FALSE) ) …

2
系列の類似性の信頼できる測定-相関関係は私にとってそれをカットしません
1つの特定の時系列を約10,000以上の参照時系列とプログラムで比較する方法を決定し、関心のある可能性のあるそれらの参照時系列をショートリストに入れようとしています。 私が使っていた方法はピアソン相関でした。参照時系列のそれぞれについて、それらの相関係数を計算し、相関係数に基づいて参照時系列のリスト全体を降順で並べ替えます。次に、相関係数が最も高い上位N個の時系列を視覚的に分析します。これは、特定の時系列に最も一致するはずです。 問題は、信頼できる結果が得られなかったことです。多くの場合、上位Nの範囲の系列は、与えられた時系列のようなものと視覚的に似ていませんでした。最後に、以下の完全な記事を読んだとき、私はその理由を理解しました。2つの時系列が類似しているかどうかを判断するために相関のみを使用することはできません。 アンスコムのカルテット これは、2つの時系列間の何らかの距離を計算するすべてのマッチングアルゴリズムの問​​題です。たとえば、以下の2つの時系列のグループは同じ距離になる可能性がありますが、一方が他方よりも明らかに優れています。 A => [1, 2, 3, 4, 5, 6, 7, 8, 9] B1 => [1, 2, 3, 4, 5, 6, 7, 8, 12] distance = sqrt(0+0+0+0+0+0+0+0+9) = 3 B2 => [0, 3, 2, 5, 4, 7, 6, 9, 8] distance = sqrt(1+1+1+1+1+1+1+1+1) = 3 だから私の質問は、このような状況で私によく合う数式(相関関係など)があるかどうかです。ここで述べた問題に悩まされていない人は? さらに詳しい説明を求めるか、必要に応じて質問文を改善してください。ありがとう!=) …

4
PCAの第1因子によって説明される分散が反復測定条件間で異なるかどうかをテストする方法は?
環境: 2つの反復測定実験条件(n = 200)のそれぞれで6つの数値変数が測定される研究があります。条件を呼び出しましょうAAAおよびと変数および。理論的には、条件では、変数の分散が主成分分析(PCA)の最初の要素によって説明されるはずだと私は予想しています。BBBA1,A2,...,A6A1,A2,...,A6A_1, A_2,..., A_6B1,B2,...,B6B1,B2,...,B6B_1, B_2,..., B_6BBB 一般的な値は次のとおりです。 のPCAの第1因子は、分散の30%を占めますA1,...,A6A1,...,A6A_1, ..., A_6 のPCAの第1因子は 、分散の40%を占めます。B1,...,B6B1,...,B6B_1, ..., B_6 質問: この違いが統計的に有意であるかどうかをどのようにテストできますか? これはどのようにRに実装できますか?

2
効果の大きさの測定値rとrの2乗を報告する方法と、それらの非技術的な説明は何ですか?
場合との間の相関効果の大きさ及びは、の分散量である変数に帰することができる。rrrAAABBBr2r2r^2BBBAAA レポートで両方のインデックスをレポートすることは重要ですか、それともどちらか一方だけをレポートすることは重要ですか? それらを平易な英語でどのように説明しますか(非統計的対象者向け)?

1
集約された調査データにおける加重相関の使用について
統合した2つの調査のデータを分析しています。 2005-06年および2007-08年の学校職員調査 2005-06年から2008-09年までの学生の調査 これらの両方のデータセットについて、3つの異なる学区からの観察(学生またはスタッフレベル)があり、それぞれがそれぞれの学区内の代表的なサンプルを毎年持っています。 分析のために、学生のデータを2つの2年間(2005年7月と2007年9月)に結合しました。次に、各データセットを「ドプライ」して、カットオフに従って質問に回答したスタッフまたは学生の割合を取得しました(たとえば、肯定的に答えた、「同意した」、または学生がアルコールを使用したとマークしたかどうかなど)。等。)。したがって、スタッフレベルと学生レベルのデータセットを一緒にマージすると、学校が分析の単位となり、2年間の期間に学校ごとに1つの観測しか得られません(学校に特定の期間のデータが欠落していなかった場合) )。 私の目標は、スタッフと学生の反応の関係を推定することです。これまでのところ、私の計画は、各学区のすべての変数(すべてパーセンテージを表す連続応答であるため)間のピアソン相関係数を取得することでした(これにより、このデータセット内の他の学区の一般化可能性の仮定が排除されるため)。 。これを行うには、とにかく2年間の地区データを平均して、学校ごとに1つの観測値のみを取得します。 質問: これは適切な分析計画ですか?私がより良い推論または力を提供できる他の方法を使用できますか? 私の計画が適切である場合、学校の登録に基づいて加重相関を取得する必要がありますか(相関係数に不釣り合いに寄与している大学校よりも小学校が多いため)。 私はこれについてデータ管理者に尋ねましたが、私のデータに重みを付ける必要性を決定する主な要因は、学校の規模が相関の程度に影響を与えるかどうか、そして私の解釈が学生レベルか学校レベルのどちらになるかであると述べました。私の解釈は学校レベルになると思います(たとえば、「この方法で答えるスタッフの割合がこの学校は、この方法で答える生徒のこの割合と相関しています...」)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.