タグ付けされた質問 「correlation」

変数のペア間の線形関連の度合いの尺度。

4
テストが相関する複数のテストのp値の修正(遺伝学)
私は多くのテストからp値を取得しており、複数のテストを修正した後に実際に重要なものがあるかどうかを知りたいと思っています。複雑さ:私のテストは独立していません。私が考えている方法(FisherのProduct Methodの変形、Zaykin et al。、Genet Epidemiol、2002年)では、p値間の相関が必要です。 この相関を推定するために、現在、ケースのブートストラップ、分析の実行、およびp値の結果ベクトルの相関について考えています。誰かがより良いアイデアを持っていますか?または、元の問題のより良いアイデア(相関テストでの複数のテストの修正)ですか? 背景:遺伝子型(AA、Aaまたはaa)と共変量との相互作用により、被験者が特定の病気にかかっているかどうかをロジスティックに回帰しています。ただし、遺伝子型は実際には大量(30〜250)の一塩基多型(SNP)であり、これらは確かに独立ではなく、連鎖不平衡にあります。

3
残差の自己相関をテストする方法は?
多くの価格(750)を持つ2つの列を持つマトリックスがあります。以下の画像では、次の線形回帰の残差をプロットしました。 lm(prices[,1] ~ prices[,2]) 画像を見ると、残差の非常に強い自己相関があるようです。 しかし、これらの残差の自己相関が強いかどうかをどのようにテストできますか?どの方法を使用すればよいですか? ありがとうございました!

3
バイナリ変数と連続変数間のランダム相関データを生成します
2つの変数を生成します。1つはバイナリの結果変数(成功/失敗など)で、もう1つは年数です。年齢と成功との間に正の相関関係が必要です。たとえば、年齢の低いセグメントよりも年齢の高いセグメントの方が成功するはずです。理想的には、相関の程度を制御できる立場にいる必要があります。それ、どうやったら出来るの? ありがとう

2
それらの間の相関に基づくクラスタリング変数
質問: 大きな相関行列があります。個々の相関をクラスタリングする代わりに、相互の相関に基づいて変数をクラスタリングします。つまり、変数Aと変数Bが変数C〜Zと同様の相関を持っている場合、AとBは同じクラスターの一部である必要があります。これの良い実例は、さまざまな資産クラスです。資産内クラス相関は、資産間クラス相関よりも高くなっています。 また、変数AとBの相関が0に近い場合、それらは多かれ少なかれ独立して作用するなど、変数間の厳密な関係の観点から変数をクラスタリングすることも検討しています。根本的な条件が突然変化し、強い相関(正または負)が発生した場合、これら2つの変数は同じクラスターに属していると考えることができます。したがって、正の相関関係を探すのではなく、関係と関係なしを探します。類推は、正と負に帯電した粒子のクラスターになり得ると思います。電荷が0になると、粒子はクラスターから離れます。ただし、正電荷と負電荷の両方が粒子を魅力的なクラスターに引き付けます。 これのいくつかがあまり明確でない場合、私は謝罪します。特定の詳細を明確にします。

2
自己相関時間の定義(有効なサンプルサイズの場合)
文献には、弱定常時系列の自己相関時間に関する2つの定義があります。 τa= 1 + 2 ∑k = 1∞ρk対τb= 1 + 2 ∑k = 1∞| ρk|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| ここで、はラグでの自己相関です。 kρk= Cov [ Xt、Xt + h]ヴァー[ Xt]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}kkk 自己相関時間の1つの用途は、「有効なサンプルサイズ」を見つけることです。時系列の観測値があり、その自己相関時間がわかっている場合、τnnnττ\tau neff= nτneff=nτ n_\text{eff} = \frac{n}{\tau} 平均を求めるために、相関するサンプルの代わりに独立したサンプル。データからを推定することは簡単ではありませんが、その方法はいくつかあります(Thompson 2010を参照)。τnnnττ\tau 絶対値なしの定義は、文献ではより一般的です。しかし、可能性を認めています。Rと「coda」パッケージの使用:τ A &lt; 1τaτa\tau_aτa&lt; 1τa&lt;1\tau_a<1 require(coda) …


1
距離メトリックとしての相関の使用(階層クラスタリングの場合)
データを階層的にクラスター化したいのですが、ユークリッド距離を使用するのではなく、相関を使用したいと思います。また、相関係数の範囲は-1から1であり、研究では-1と1の両方が「共規制」を表すため、-1と1の両方をd = 0として扱います。したがって、私の計算は d= 1 − | r | d=1−|r|\ d = 1-|r| コサイン定理を使用してrを真のユークリッドdに変換する必要があることを別の質問(k-meansクラスタリングに関して)で読みました:d= 2 (1 − r )−−−−−−−√d=2(1−r)d = \sqrt{2(1-r)} 階層的クラスタリングの相関を距離に変換する最も正確な方法は何ですか?

2
縮退
ピアソン相関係数の人口値の2種類の推定量について、私の頭の中にいくつかの混乱がありました。 A. フィッシャー(1915)二変量正規母集団実証するためにあることを示したである負にバイアスの推定量ρバイアスだけ小さいサンプルサイズ(のために実際にかなりの量であることができるが、N &lt; 30)。サンプルrは、ρよりも0に近いという意味でρを過小評価しています。(後者が0または± 1の場合を除き、rは不偏です。)ρのほぼ不偏の推定量がいくつか提案されています。rrrρρ\rhon&lt;30n&lt;30n<30rrrρρ\rho000ρρ\rho000±1±1\pm 1rrrρρ\rhoオルキンとプラット(1958)は修正しました。rrr runbiased=r[1+1−r22(n−3)]runbiased=r[1+1−r22(n−3)]r_\text{unbiased} = r \left [1+\frac{1-r^2}{2(n-3)} \right ] B.回帰では、は対応する母集団のR平方を過大評価していると言われています。または、単回帰で、それはつまり、R 2つの過大評価はρ 2。事実に基づいて、私はそれを言って、多くのテキストを見てきましたrがされ積極相対バイアスにρを絶対値を意味する、:rは遠くからである0よりρ(?その文が真です)。テキストは、サンプル値による標準偏差パラメーターの過大評価と同じ問題であると述べています。観測されたR 2を「調整」するための多くの式が存在しますR2R2R^2r2r2r^2ρ2ρ2\rho^2rrrρρ\rhorrr000ρρ\rhoR2R2R^2人口パラメータに近いWherryの(1931) は最もよく知られています(ただし、最良ではありません)。そのような調整されたr 2 adjのルートはshrunken rと呼ばれます:R2adjRadj2R_\text{adj}^2r2adjradj2r_\text{adj}^2 rrr rshrunk=±1−(1−r2)n−1n−2−−−−−−−−−−−−−−√rshrunk=±1−(1−r2)n−1n−2r_\text{shrunk} = \pm\sqrt{1-(1-r^2)\frac{n-1}{n-2}} 2つの異なる推定量が存在します。非常に異なる:最初のものはrを膨張させ、2番目はrを収縮させます。それらを調整する方法は?1つをどこで使用/報告し、もう1つを報告しますか?ρρ\rhorrrrrr 特に、「縮められた」推定量も(ほぼ)偏りのない「偏りのない」推定値であるが、異なるコンテキストでのみ-回帰の非対称コンテキストであるというのは事実でしょうか。というのは、OLS回帰では、片側(予測子)の値を固定値と見なし、サンプルからサンプルへのランダムエラーなしで対応するためですか?(そして、ここに追加するために、回帰は二変量正規性を必要としません。)

2
特定のサンプル共分散行列を使用してデータを生成する
共分散行列与えられた場合、サンプルの共分散行列を持つようにデータを生成する方法は?Σ = Σ SΣsΣs\boldsymbol \Sigma_sΣ^= ΣsΣ^=Σs\hat{\boldsymbol \Sigma} = \boldsymbol \Sigma_s より一般的に:密度からデータを生成し、データパラメーターベクトル与えることに興味があります。これによりサンプルが生成され、そこから再び値推定できます。私が興味を持って中だと、逆の問題です:私たちは、パラメータのセットが指定されている場合はどうすれば、私たちはサンプルを生成したい、このような、その。X θ θ θ Sのx θ = θ Sf(x | θ )f(バツ|θ) f(x \vert \boldsymbol\theta) バツバツxθθ\boldsymbol\thetaθ^θ^\boldsymbol{\hat\theta}θsθs\boldsymbol\theta_{s}バツバツxθ^= θsθ^=θs \boldsymbol{\hat\theta} = \boldsymbol\theta_{s} これは既知の問題ですか?そのような方法は便利ですか?アルゴリズムは利用可能ですか?

2
さまざまな条件下での2つの数値変数間の関連性をグラフ化するためのヒントを含む優れたオンラインリソース
コンテキスト: その間、2つの数値変数間の関連を効果的にプロットする方法に関する一連のヒューリスティックを取得しました。データを扱うほとんどの人が同様のルールを持っていると思います。 このようなルールの例は次のとおりです。 変数の1つが正に歪んでいる場合、その軸を対数目盛でプロットすることを検討してください。 多数のデータポイントがある場合(たとえば、n&gt; 1000)、何らかの形式の部分透過性の使用やデータのサンプリングなど、別の戦略を採用します。 変数の1つが限られた数の離散カテゴリをとる場合、ジッターまたはヒマワリプロットの使用を検討してください。 3つ以上の変数がある場合、散布図行列の使用を検討してください。 何らかの形のトレンドラインを当てはめることはしばしば有用です。 プロット文字のサイズをサンプルサイズに調整します(nが大きい場合は、より小さいプロット文字を使用します)。 等々。 質問: おそらく例を挙げて、2つの数値変数間の関連性を効果的にプロットするためのこれらおよびその他のトリックを説明するWebページまたはサイトを生徒に紹介できるようにしたいと思います。 インターネット上でこれをうまく機能させるページやサイトはありますか?


3
多重打ち切りデータの共分散行列の不偏推定
環境サンプルの化学分析は、報告限界またはさまざまな検出/定量限界でしばしば打ち切られます。後者は、通常、他の変数の値に比例して変化します。たとえば、ある化合物の濃度が高いサンプルは、分析のために希釈する必要があり、そのサンプルで同時に分析される他のすべての化合物の打ち切り限界が比例的に増大する場合があります。別の例として、化合物の存在により、他の化合物に対する試験の反応が変化する場合があります(「マトリックス干渉」)。これが研究室で検出されると、それに応じてレポートの制限が膨らみます。 特に多くの化合物が50%を超える打ち切りを経験する場合に、このようなデータセットの分散共分散行列全体を推定する実用的な方法を模索しています。従来の分布モデルでは、(真の)濃度の対数は多重正規分布であり、これは実際にはうまく適合するようであるため、この状況の解決策が役立ちます。 (「実用的」とは、R、Python、SASなどの少なくとも1つの一般的に利用可能なソフトウェア環境で、複数の代入で発生するような反復再計算をサポートするのに十分迅速に実行される方法で、確実にコーディングできる方法を意味します。そして、これはかなり安定している[だからこそ、一般的なベイジアンソリューションは歓迎されているが、BUGSの実装を検討するのを嫌がる]。 この件についてのご意見を事前に感謝します。

1
線形モデルとしての一般的な統計検定
(更新:私はこれをより深く掘り下げ、結果をここに投稿しました) 名前付き統計検定のリストは膨大です。一般的なテストの多くは、1標本t検定はただである例えば、単純な線形モデルから推論に頼る=β+εyのヌルモデルに対してテストされ、Y =μ+εことすなわちβ=μ μは、いくつかのヌルです値-通常はμ= 0。 これは、名前付きモデルのローテート学習、それらを使用するタイミング、およびそれらが互いに関係がないかのように仮定することよりも、教育目的にとってかなり有益であることがわかりました。そのアプローチは促進しますが、理解を促進しません。ただし、これを収集する優れたリソースが見つかりません。私は、モデルからの推論の方法よりも、基礎となるモデル間の同等性にもっと興味があります。私が見る限り、これらすべての線形モデルの尤度比検定は、「古典的な」推論と同じ結果をもたらします。 エラー項を無視し、すべての帰無仮説が効果の欠如であると仮定して、これまでに学んだ同等性を次に示します。ε 〜N(0 、σ2)ε〜N(0、σ2)\varepsilon \sim \mathcal N(0, \sigma^2) 1標本t検定: 。y=β0H0:β0= 0y=β0H0:β0=0y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 対応のある標本のt検定: y2− y1= β0H0:β0= 0y2−y1=β0H0:β0=0y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 これは、ペアワイズ差分の1サンプルt検定と同じです。 2標本t検定: y= β1∗ x私+ β0H0:β1= 0y=β1∗バツ私+β0H0:β1=0y = \beta_1 * x_i + \beta_0 \qquad \mathcal{H}_0: …

4
相関の基礎となる仮定と有意性の回帰勾配検定の違い
私の質問は、別の質問のコメントでの@whuberとの議論から生まれました。 具体的には、@ whuberのコメントは次のとおりです。 驚くかもしれない理由の1つは、相関テストと回帰スロープテストの基礎となる仮定が異なることです。そのため、相関とスロープが実際に同じものを測定していることを理解したとしても、なぜそれらのp値は同じである必要があるのでしょうか?これは、これらの問題が単にとが数値的に等しいかどうかよりも深くなることを示しています。rrrββ\beta これは私の考えを得て、私はさまざまな興味深い答えに出くわしました。たとえば、「相関係数の仮定」という質問を見つけましたが、上記のコメントがどのように明確になるかわかりません。 ピアソンのと傾きの関係について、単純な線形回帰でもっと面白い答えを見つけました(こことここを例に参照)私に)。rrrββ\beta 質問1:相関テストと回帰スロープテストの基礎となる仮定は何ですか? 2番目の質問では、次の出力を検討してRください。 model &lt;- lm(Employed ~ Population, data = longley) summary(model) Call: lm(formula = Employed ~ Population, data = longley) Residuals: Min 1Q Median 3Q Max -1.4362 -0.9740 0.2021 0.5531 1.9048 Coefficients: Estimate Std. Error t value Pr(&gt;|t|) (Intercept) 8.3807 4.4224 1.895 0.0789 . …

2
距離共分散が線形共分散より適切でない場合
私は(漠然と)ブラウン/距離共分散/相関について紹介されました。これは、依存関係をテストするときに、多くの非線形の状況で特に役立つようです。ただし、非線形/カオスデータには共分散/相関がよく使用されますが、あまり使用されていないようです。 距離の共分散にはいくつかの欠点があるかもしれないと考えています。それでは、それらは何であり、なぜ誰もが常に距離共分散を使用しないのですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.