タグ付けされた質問 「correlation」

変数のペア間の線形関連の度合いの尺度。

1
相関行列Bと比較して、相関行列Aに含まれる「より多くの相関」の量の定量化
私は2つの相関行列とを持っています(Matlabのcorrcoef()によるピアソンの線形相関係数を使用)。と比較して含まれる「より多くの相関」の量を定量化したいと思います。そのための標準的なメトリックまたはテストはありますか?B A BあAABBBあAABBB たとえば、相関行列 「より多くの相関」を含む 私はボックスのM検定を知っています。これは、2つ以上の共分散行列が等しいかどうかを決定するために使用されます(相関行列は標準化された確率変数の共分散行列と同じであるため、相関行列にも使用できます)。 現在、非対角要素の絶対値の平均を介してとを比較しています。つまり、。(この式では、相関行列の対称性を使用しています)。いくつかのより巧妙なメトリックスがあるかもしれないと思います。B 2あAABBB2ん2− nΣ1 ≤ I &lt; J ≤ n個| バツ私、j|2ん2−んΣ1≤私&lt;j≤ん|バツ私、j|\frac{2}{n^2-n}\sum_{1 \leq i < j \leq n } \left | x_{i, j} \right | アンディWの行列式に関するコメントに続いて、メトリックを比較する実験を行いました。 非対角要素の絶対値の平均:メトリック平均()メトリック平均()\text{metric}_\text{mean}() 行列式::メトリック行列式()メトリック行列式()\text{metric}_\text{determinant}() ましょうとの次元の対角線上のものと2つのランダム対称行列を。上三角(対角線を除く) 0から1までのランダムなフロートが取り込まれの上三角(対角線を除く) 0から0.9までのランダムなフロートが取り込まれています。私はそのような行列を10000生成し、いくつかのカウントを行います:B 10 × 10 A BああABBB10 × 1010×1010 \times 10ああABBB メトリック平均(B )≤ メトリック平均(A )メトリック平均(B)≤メトリック平均(あ)\text{metric}_\text{mean}(B) \leq \text{metric}_\text{mean}(A) …

3
ペアワイズ相関が最小のn個のアイテムのうちk個を見つける
n項目間のペアワイズ相関の行列があります。次に、相関が最も少ないk個のアイテムのサブセットを見つけます。したがって、2つの質問があります。 そのグループ内の相関関係の適切な尺度はどれですか? 最小の相関を持つグループを見つける方法は? この問題は私には一種の逆因数分析のように見え、簡単な解決策があると確信しています。 この問題は、完全なグラフからノード(nk)を削除する問題と実際に等しいため、残りのノードは最小のエッジの重みで接続されていると思います。どう思いますか? 事前にご提案いただきありがとうございます!

1
偏相関の意味
ウィキペディアから 正式には、間の部分相関との組所与制御変数、書き込ま、残差の間の相関である及び起因しますとおよびと線形回帰。XXXYYYnnnZ={Z1,Z2,…,Zn}Z={Z1,Z2,…,Zn}Z = \{Z_1, Z_2, …, Z_n\}ρXY⋅ZρXY·Zρ_{XY·Z}RXRXRXRYRYRYXXXZZZYYYZZZ それは以前に言う 偏相関は、2つの確率変数間の関連の度合いを測定し、一連の制御確率変数の効果を削除します。 部分相関ρXY⋅ZρXY·Zρ_{XY·Z}が、Zを条件とするXXXとYYY間の相関にどのように関係しているのかと思っていましたか?ZZZ n=1n=1n=1は特別なケースがあります。 実際、一次部分相関(つまり、n=1n=1n=1場合)は、相関と、除去可能な相関の疎外係数の積で除算した除去可能な相関の積との差に他なりません。疎外係数、および相関を介した共同分散との関係は、ギルフォード(1973、pp。344–345)で利用できます。 上記を数学的にどのように書き留めるか疑問に思いましたか?

4
外れ値の影響を受けにくいバージョンの相関係数はありますか?
相関係数は次のとおりです。 r =Σk(バツk−バツ¯)(yk−yk¯)sバツsyn − 1r=∑k(xk−x¯)(yk−yk¯)sxsyn−1 r = \frac{\sum_k \frac{(x_k - \bar{x}) (y_k - \bar{y_k})}{s_x s_y}}{n-1} 標本平均と標本標準偏差は外れ値に敏感です。 同様に、 r =Σkものkn − 1r=∑kstuffkn−1 r = \frac{\sum_k \text{stuff}_k}{n -1} 一種の平均値のようなものであり、変動の影響を受けにくい変動があるかもしれません。 標本平均は次のとおりです。 バツ¯=Σkバツkんx¯=∑kxkn \bar{x} = \frac{\sum_k x_k}{n} 標本標準偏差は次のとおりです。 sバツ=Σk(バツk−バツ¯)2n − 1−−−−−−−−−−−√sx=∑k(xk−x¯)2n−1 s_x = \sqrt{\frac{\sum_k (x_k - \bar{x})^2}{n -1}} 欲しいと思う 中央値: 中央値[ x ]Median[x] \text{Median}[x] …

1
「ビールとおむつ」の相関分析を行う方法
次と同等のデータがあります。 shopper_1 = ['beer', 'eggs', 'water',...] shopper_2 = ['diapers', 'beer',...] ... このデータセットを分析して、次のような意味を持つ相関行列を取得します。xを購入した場合、yを購入する可能性があります。 Python(またはMATLAB以外の何か)を使用して、どうすればそれを回避できますか?いくつかの基本的なガイドライン、または私がどこを見るべきかへのポインタが役立つでしょう。 ありがとうございました、 編集-私が学んだこと: これらの種類の問題は、相関ルールの発見と呼ばれます。ウィキペディアには、そうするための一般的なアルゴリズムのいくつかをカバーする優れた記事があります。そうするための古典的なアルゴリズムは、Agriraw et alによるAprioriのようです。al。 これにより、Pythonインターフェースのデータマイニングパッケージであるorangeが表示されました。Linuxの場合、インストールする最良の方法は、提供されているsetup.pyを使用してソースからインストールすることです Orangeはデフォルトで、サポートされているいくつかの方法の1つでフォーマットされたファイルから入力を読み取ります。 最後に、単純なアプリオリ相関ルールの学習はオレンジ色で単純です。

1
一様確率変数の独立性と相関の関係
私の質問はかなり単純です:とを上の2つの無相関の一様確率変数としましょう。彼らは独立していますか?バツバツXYYY[ - 1 、1 ][−1、1][-1,1] 2つのランダムな無相関変数は、それらの共同分布が正規である場合にのみ、必ずしも独立しているという印象を受けました。しかし、私が求めている主張を否定するための反例を思いつくことはできません。反例または証拠を提供してください。

1
相互作用の変数間の相関関係は重要ですか?
モデルを近似するとします。とが相関している場合、相互作用効果の推定に実際的な影響はありますか?y=x1+x2+x1×x2y=バツ1+バツ2+バツ1×バツ2y = x_1 + x_2 + x_1\times x_2x1バツ1x_1x2バツ2x_2 とが非常に相関している場合、共線性の問題が発生する可能性があることを理解していますが、それは相互作用項に影響を与えるべきではありませんか?x1x1x_1x2x2x_2

1
相関確率のベクトルがある場合。相関関係を壊すことなく、それらをバイナリに変換するにはどうすればよいですか?
私の最終的な目標は、相関するベルヌーイ確率変数のサイズのベクトルを生成する方法を持つことができるようにすることです。これを行う1つの方法は、ガウスクープラアプローチを使用することです。ただし、ガウシアンクープラアプローチでは、ベクトルが残ります。NNN (p1,…,pN)∈[0,1]N(p1,…,pN)∈[0,1]N (p_1, \ldots, p_N) \in [0,1]^N Suppose that I have generated (p1,…,pN)(p1,…,pN)(p_1, \ldots, p_N) such that the common correlation between them is ρρ\rho. Now, how can I transform these into a new vector of 000 or 111's? In other words, I would like: (X1,…,XN)∈{0,1}N(X1,…,XN)∈{0,1}N (X_1, \ldots, X_N) \in \{0,1\}^N …

1
ラグ1と2で負の自己相関が発生する可能性はありますか?
私の統計ノートを通過するいくつかの心のゲームをやっているだけ... ラグ1と2で負の値を持つACFを見てきました-ここで空白を持っているかもしれませんが、ラグ1で負のACが高くなると、(-1,1、-1,1、 ...)そのため、ACが正と負を交互に繰り返すことを期待しますか? ここで私が完全に間違っている場合-ラグ1と2の両方に強い負のACがある簡単な構成例はありますか? ありがとうございました!

4
これはどんな分布ですか?
2つの変数間の共分散がゼロの制限分布に直面しましたが、それらの相関はです。そのような分布はありますか?どのように説明できますか?111 詳細を教えてください。OK、XとYは、分散と平均が異なる(nがない)2変量正規分布ですが、corr = 1-(1 / n)ですが、Yn | Xn = xの極限分布を調べます。

1
直感的に理解する
私はこのフォーラムでこの質問と素晴らしい受け入れられた答えを見ました。次に、が共分散を正規化する理由を直感的に理解しようとするきっかけがありました。SxSySxSyS_xS_y COV(X,Y)SxSy∈[−1,1]COV⁡(X,Y)SxSy∈[−1,1]\frac{\operatorname{COV}(X,Y)}{S_xS_y} \in [-1,1] S_xS_xが\ operatorname {COV}(X、X)を1にSxSxSxSxS_xS_x正規化する理由を理解できれば役立つと思います。もちろん、私は定義上それらが等しいことを理解しています。しかし、私の質問は基本的にこれです:受け入れられた回答の用語を使用して、なぜプロットの赤の合計は正確にS_xS_x = \ operatorname {VAR}(X)です(より正確には、私が理解している限り、合計を言うことです)n ^ 2によって分割された四角形の\ operatorname {VAR}(X)である必要があります)。つまり、10個の観測値のサンプルを取得する場合、45個の長方形よりも、定義を使用しながら、10個の値のみの平均を見つける必要があります。COV(X,X)COV⁡(X,X)\operatorname{COV}(X,X)111SxSx=VAR(X)SxSx=VAR⁡(X)S_xS_x = \operatorname{VAR}(X)n2n2n^2VAR(X)VAR⁡(X)\operatorname{VAR}(X)101010454545101010

1
3つの変数の共分散
私は共分散行列がどのように機能するかを理解しようとしています。したがって、 2つの変数があるとします。ここで、変数間の関係、つまり、一方が他方にどれだけ依存しているかを示します。Cov (X 、Y )= E [ (x - E [ X ] )(y - E [ Y ] )]バツ、YX,YX, YCov (X、Y)= E [ (x − E [ X] )(y− E [ Y] )]Cov(X,Y)=E[(x−E[X])(y−E[Y])]\text{Cov}(X,Y) = \mathbb{E}[(x -\mathbb{E}[X])(y-\mathbb{E}[Y])] さて、3つの変数のケースは私にはあまり明確ではありません。共分散関数の直感的な定義は、ですが、代わりに、変数のペアごとに2つの変数の共分散として定義されている共分散行列を使用することが文献で提案されています。Cov (X、Y、Z)= E [ (x − E [ X] )(y− E [ Y] …

1
楕円上の均一分布の相関係数
私は現在、楕円の内部の一様分布の相関係数を主張する論文を読んでいます fX,Y(x,y)={constant0if (x,y) inside the ellipseotherwisefX,Y(x,y)={constantif (x,y) inside the ellipse0otherwisef_{X,Y} (x,y) = \begin{cases}\text{constant} & \text{if} \ (x,y) \ \text{inside the ellipse} \\ 0 & \text{otherwise} \end{cases} によって与えられます ρ=1−(hH)2−−−−−−−−−√ρ=1−(hH)2\rho = \sqrt{1- \left(\frac{h}{H}\right)^2 } ここで、とは、それぞれ中央と両端の垂直方向の高さです。hhhHHH 著者は彼がどのようにそれに到達したかを明らかにせず、代わりに、スケールを変更し、回転し、平行移動し、そしてもちろん統合する必要があるとだけ述べています。私は彼のステップをたどってみたいと思いますが、私はそれで少し迷っています。したがって、いくつかのヒントに感謝します。 前もって感謝します。 ああ、そして記録のために シャティヨン、ガイ。「バルーンは、相関係数の大まかな推定値を決定します。」アメリカ統計学者38.1(1984):58-60 とても面白いです。

4
負の重みを考慮するグラフクラスタリングアルゴリズム
私は、グラフの値は、範囲[-1,1]であることができる重み付け有向エッジとインスタンス。頂点がより相関しているグループを見つけるために、このグラフでクラスタリングを行う必要があります。 複数のクラスタリングまたはコミュニティ検出グラフベースのアルゴリズムを検索しましたが、負の重みのためにそれらのほとんどが機能しません。これまで、私はスピングラス(igraphライブラリではいわゆるポッツモデルに基づくアルゴリズムです)アルゴリズムを適用しており、正と負の両方の重みで機能するようです。 負および正のエッジの重みを持つグラフでクラスタリングまたはコミュニティ検出を行うための他のアルゴリズムはありますか? 更新:エッジの重みは相関を表し、1は2つの頂点が強く相関していることを意味し、-1は逆相関し、0は独立していることを意味します。

1
与えられた相関関係を持つ二項確率変数の生成
独立した二項確率変数を生成する方法を知っているとします。どのように生成することができる2つのランダム変数とようにXXXYYYX∼Bin(8,23),Y∼Bin(18,23) and Corr(X,Y)=0.5X∼Bin(8,23),Y∼Bin(18,23) and Corr(X,Y)=0.5X\sim \text{Bin}(8,\dfrac{2}{3}),\quad Y\sim \text{Bin}(18,\dfrac{2}{3})\ \text{ and }\ \text{Corr}(X,Y)=0.5 とは独立しているという事実を使おうと考えましたが、が二項分布であるため、この方法は使用できません。これが機能した場合、2つの二項確率変数、たとえばと、とつまり、、ペア。しかし、は二項分布ではないためこれを行うことはできません。Y - ρ X ρ = C O R R (X 、Y )X - ρ Y A B X = A Y - ρ X = B Y = B + ρ A (X 、Y )Y - ρ …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.