統計とビッグデータ correlation

1

これが最近のGoogle相関クエリです：http : //www.google.com/trends/correlate/search?e= internet+usage&t =weekly# そのリンクの検索ボックスを見るとわかるように、「インターネットの使用」と入力すると、残りはGoogleが行いました。クエリ「データマイニング」との「相関」として0.9298の値を示しています。しかし、Googleホワイトペーパー[PDF]の2ページ目を読むと、次のように書かれています。 The objective of Google Correlate is to surface the queries in the database whose spatial or temporal pattern is most highly correlated with a target pattern. Google Correlate employs a novel approximate nearest neighbor (ANN) algorithm over millions of candidate queries in an online …

8 time-series correlation

1

ギャンブルマシン検証の統計

問題は、政府が電子ルーレットを閉鎖することを望んでおり、ルーレットが統計的検定で失敗したと主張していることです。私の言語では申し訳ありませんが、これはスロベニアの法律から可能な限り翻訳された公式の（法律による）要件は次のとおりです。各イベントの頻度は、予想される頻度と3シグマを超えてはなりません。正規分布のカイ二乗検定は0.025のリスクレベル内にある必要があります連続相関の検定は、3シグマ検定とカイ2乗検定に合格する必要があります。最初の2つの要件をテストし、それらはテストに合格しましたが、3番目の要件を理解するのに問題があります。（これは翻訳されており、「連続した相関」は別のものになる可能性があることに注意してください） 3番目の要件をテストするにはどうすればよいですか？誰かが興味を持っている場合のデータ：http : //pastebin.com/ffbSKpr1 編集：カイ二乗は2％の確率で失敗します（アルファが0.025であるために予想されることです）、sigma3テストは5％失敗しますが、3sigmaでは9％の失敗が予想されます（それに従って周波数が分散されていないようです）乱数でも正規分布）私はこの法則を正しく理解していないかもしれませんが、すべての自己相関ベクトルに対して3シグマテストに合格する確率はほぼ0％です。 Pythonコード： from math import sqrt from itertools import * import random #uncoment for python 2.x #zip = izip #range = xrange #with open("rng.txt","r") as wr: # n = [int(i) for i in wr] n = [random.randint(0,36) for i …

8 correlation statistical-significance chi-squared

1

因子負荷は、アイテムの回答オプションの範囲によって支配されるべきですか？

1〜5の合意項目と0/1の「当てはまるものをすべて選択」項目で探索的要因分析が行われる場合、理論的には、1〜5項目が1つまたは2つの要因にかかる偽の傾向がどの程度あるか1つまたは2つの要素の別のセットにロードする0/1アイテム？（同様のスケールのアイテム間では相関がはるかに高くなる傾向があるという考えの賛否両論を聞いたことがあります。私自身の実験/シミュレーションではあまり効果がありませんでした。）

8 correlation factor-analysis

2

相関係数の数学的期待値の計算または

math.stackexchange.comからの質問を再投稿していますが、math.seの現在の答えは正しくないと思います。選択セットから番号、ある番目の数が選択され、の階数であるにおける番号。選択は置換なしです。は常により小さい。ランクは、数値を昇順でソートした後のaの順序です。nnn{1,2,...,U}{1,2,...,U}\{1,2,...,U\}yiyiy_iiiixixix_iyiyiy_innnnnnUUUnnn 我々が得ることができるのデータポイント、そして、これらのデータポイントのための最良適合線は線形回帰により求めることができます。（相関係数）は適合線の良さです。または（決定の相関を計算します。nnn(x1,y1),(x2,y2),...,(xn,yn)(x1,y1),(x2,y2),...,(xn,yn)(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)rxyrxyr_{xy}E(rxy)E(rxy)\mathbb{E}(r_{xy})E(r2xy)E(rxy2)\mathbb{E}(r_{xy}^2) 場合、推定を計算することができない、または下界OK依然としてあります。E[rxy]E[rxy]\mathbb{E}[r_{xy}] 更新：ランダムに生成されたデータを使用してサンプル相関係数を計算すると、が1に非常にことがわかります。したがって、理論的な観点から証明したい、または上記の方法で生成されたデータは非常に線形。rxyrxyr_{xy} 更新：サンプル相関係数の分布を取得することは可能ですか？

8 regression correlation

2

PCA固有ベクトルが直交しているが相関しているのはなぜですか？

私は、PCAを説明する素晴らしい記事をいくつか見たことがあります。このアプローチでは、（対称）相関行列の固有ベクトルが直交しているのはなぜですか。また、そのようなベクトルが互いに直交していることを示す方法も理解しています（たとえば、これらの固有ベクトルの行列のクロス積をとると、非対角要素がゼロの行列になります）。私の最初の質問は、PCAの固有ベクトルの相関関係を調べたときに、相関行列の非対角要素が非ゼロである理由です（つまり、固有ベクトルが直交している場合、どのように相関させることができますか）。この質問はPCAに直接関係するものではありませんが、私がこの問題に遭遇した方法であるため、この文脈に入れました。PCAを実行するために、R、特にpsychパッケージを使用しています。例が役立つとしたら、StackOverflowに関するこの投稿には、非常に便利で関連性の高い記事があります（これもRで）。この投稿では、ベストアンサーの作成者は、PCAの負荷（固有ベクトル）がFactor Congruenceまたはクロス積を使用して直交していることを示しています。彼の例では、行列LはPCA負荷行列です。このリンクにない唯一のことはcor(L)、固有ベクトル間の非ゼロ相関を示すことについて私が尋ねている出力を生成することです。この投稿を読んだ後、直交ベクトルをどのように相関させることができるかについて特に混乱しています。これは、直交性が相関の欠如と同等であることを証明しているようです：なぜPCA固有ベクトルは直交しており、PCAスコアとの相関関係は無相関ですか？私の2番目の質問は、PCA固有ベクトルを使用してPCAスコアを計算する場合、スコア自体は（予想どおり）無相関です...これについての最初の質問への接続はありますか？なぜ固有ベクトルは相関するがスコアは相関しないのですか？

8 r correlation pca orthogonal

2

ガウス過程と相関

私はなぜ人々がガウス過程（GP）を使って未知の（時には決定論的）関数をモデル化するのか疑問に思っています。たとえば、未知の関数考えます。この関数から3つの独立した観測結果があります。 y=f(x)y=f(x)y=f(x)(x1,y1);(x2,y2);(x3,y3)(x1,y1);(x2,y2);(x3,y3)\big(x_1,y_1); \big(x_2,y_2); \big(x_3,y_3) 基になる関数を学ぶために、GPはすべての出力を共通の多変量正規分布として扱う一般的なノンパラメトリック手法です。特定の共分散関数を想定し、以下を想定します。 GPは次の形式を取ります K(xi,yi)K(xi,yi)K(x_i,y_i)y=(y1,y2,y3);X=(x1,x2,x3)y=(y1,y2,y3);X=(x1,x2,x3)\mathbf{y}=(y_1,y_2,y_3);\mathbf{X}=(x_1,x_2,x_3)y|X∼N(0,⎡⎣⎢K(x1,x1)K(x1,x2)K(x1,x3)K(x1,x2)K(x2,x2)K(x2,x3)K(x1,x3)K(x2,x3)K(x3,x3) ⎤⎦⎥)y|X∼N(0,[K(x1,x1)K(x1,x2)K(x1,x3)K(x1,x2)K(x2,x2)K(x2,x3)K(x1,x3)K(x2,x3)K(x3,x3) ])\\ \bf{y}|X \sim N\Bigg(\mathbf{0},\begin{bmatrix} K(x_1,x_1) & K(x_1,x_2) & K(x_1,x_3) \\ K(x_1,x_2) & K(x_2,x_2) & K(x_2,x_3) \\ K(x_1,x_3) & K(x_2,x_3) & K(x_3,x_3) \ \end{bmatrix}\Bigg)\\ 観測は独立しています。それらの唯一の共通点は、それらが同じ基本的な機能に由来することです。 (xi,yi)(xi,yi)\big(x_i,y_i) 私の主な質問は次のとおりです。なぜとを相関させる必要があるのですか？それは間違ったモデルではありませんか？どのようなについても、良い予測結果が得られると想定できるのはなぜですか。(xi,yj)(xi,yj)\big(x_i,y_j)(xl,ym)(xl,ym)\big(x_{l},y_{m})y|xy|xy|x この問題で私が見逃している側面や、なぜ相関を強制することが役立つのかわかりません。

8 machine-learning correlation covariance gaussian-process

1

オペレーター依存のクロス積の名前

あると仮定します n×pn×p\\n\times p マトリックス MM\mathbf{M}。異なる列ごとの演算子を使用した異なる変換は、新しいp×pp×p\\p\times p 対称行列 SS\mathbf{S}。たとえば、共分散行列 CC\mathbf{C}内積演算子を使用して計算できます。これにより、共分散行列の各値は、元の行列の2つの列の内積になります。MM\mathbf{M} （で割った n−1n−1n-1）： C=1n−1MT⋅MC=1n−1MT⋅M\mathbf{C} = { 1 \over {n-1} } \mathbf{M}^{T} \cdot \mathbf{M} 同様に、相関行列 PP\mathbf{P} によって定義することができます Pij=corr(Ci,Cj)Pij=corr(Ci,Cj)\mathbf{P}_{ij} = \mathrm{corr}(C_i,C_j) どこ CiCi\mathbf{C}_i そして CjCj\mathbf{C}_j の列です CC\mathbf{C}、および corrcorr\mathrm{corr}は、ピアソンの積率係数のような相関の尺度です。この場合、演算子は2変量相関係数です。この演算子依存の変換には名前がありますか？

8 correlation terminology covariance-matrix

3

標本相関は常に標本分散と正の相関がありますか？

サンプル相関とサンプル標準偏差（と呼ぶ）は、正の真の相関を持つ二変量正規、をシミュレートすると正の相関があるように見えます（と間の真の相関が負の場合は負の相関があるようです）負）。これはやや直観に反することがわかりました。非常にヒューリスティックに、がXの1 SDの増加に対するYの予想される増加（SD（Y）の単位）を表すという事実を反映していると思いますが大きくなると推定すると、はYの変化を反映します。 Xのより大きな変更に関連付けられています。rrrバツXXsバツsXs_XバツXXYYYバツXXYYYrrrsバツsXs_Xrrr しかし、私はかどうかを知りたいのため（少なくともX及びYは、正常と大きいnの二変量である場合について）一般的に成り立ちます。まかせ表す真SD、我々が持っています：Co v （r 、sバツ）> 0Cov(r,sx)>0Cov(r, s_x) >0r > 0r>0r>0σσ\sigma Co v （r 、sバツ）= E[ rsバツ] - ρσバツCov(r,sX)=E[rsX]−ρσxCov(r, s_X) = E [ r s_X] - \rho \sigma_x ≈ E[Co vˆ（X、Y）sY] −Co v （X、Y）σY≈E[Cov^(X,Y)sY]−Cov(X,Y)σY \approx E \Bigg[ \frac{\widehat{Cov}(X,Y)}{s_Y} \Bigg] - \frac{Cov(X,Y)}{\sigma_Y} 最初の項でテイラー展開を使用してみましたが、それはにため、行き止まりです。何か案は？Co v （Co vˆ（X、Y）、sY）Cov(Cov^(X,Y),sY)Cov(\widehat{Cov}(X,Y), s_Y) 編集たぶん、より良い方向は、であることを示すことを試みることですここで、は、X上のYのOLS係数です。それから、、これは望ましい結果を意味します。以来ほとんどのサンプル手段の違いのようなものです、多分私達は通常のRV用のサンプル平均と分散の既知の独立性のようなものを使用して元の結果を得ることができますか？Co v …

7 correlation covariance independence

2

無相関+共同正規性=独立。どうして？直感と力学

とは無相関であるが独立していないという事実によって単純に例示されているように、無相関である2つの変数は必ずしも独立しているとは限りません。ただし、相関関係がなく、共に正規分布している2つの変数は、独立していることが保証されています。これが真実である理由を誰かが直感的に説明できますか？2つの変数の結合正規性は、2つの変数間のゼロ相関の知識に正確に何を追加しますか？これにより、これらの2つの変数は独立している必要があると結論付けることができますか？バツXXバツ2X2X^2

7 correlation normal-distribution independence joint-distribution intuition

2

バイナリ変数間のこの相関/関連測定の名前は何ですか？

とりわけ、2つのバイナリ確率変数と間の関連付け（または偶発性または相関）のいくつかの測定値があります。XXXYYY ピアソンのファイ係数クラメルのV 以下の数は、統計的に興味深い場合、既知の測定値とどのように関係し、どのような名前で（おそらく）議論されているのでしょうか。κκ\kappa κ=1−2N|X△Y|κ=1−2N|X△Y|\kappa = 1 - \frac{2}{N}|X \triangle Y| プロパティまたはプロパティを持ち、両方を持たないサンプルの数（排他的OR、対称差）、サンプルの総数。ファイ係数と同様に、は完全な一致または不一致を示し、は関係がないことを示します|X△Y||X△Y||X \triangle Y|XXXYYYNNNκ=±1κ=±1\kappa = ± 1κ=0κ=0\kappa = 0

7 correlation binary-data association-measure

2

時間の経過に伴う相関行列のプロット

あなたの経験から、時間的に変化する相関行列を表すための提案はありますか？私が見/quant/1565/how-do-i-graphically-represent-the-evolution-of-a-covariance-matrix-over-timeが、私はいずれかを見つけることができませんでした良い記事。私がこの質問をしているのは、データ分析の分野にかなり慣れていないためggplot2です。また、今まで読んだ唯一の本は、ウィッカムの本です。そこで、専門家に聞いてみようと思いました。何卒よろしくお願いいたします。

7 correlation data-visualization

2

ピアソン相関係数の値が-1未満または1を超えることは可能ですか？

大規模なデータセットに対してこの式に従ってピアソン相関係数を計算しようとしています：ほとんどの場合、私の値は-1から1の間ですが、次のような奇妙な数値が表示されることがあります。 1.0000000002 -3 等々。これをもたらす奇妙なデータがある可能性はありますか、それとも計算にエラーがあることを意味しますか？たとえば、Xの合計が1で、X ^ 2の合計が1になる場合があることに気づきました。これにより、1.00000002のような値になります。それ以外の場合は、XYの合計を0として、計算結果は-3になります。これは統計的に可能ですか、それとも私の計算にエラーがありますか？

7 correlation pearson-r numerics

1

相関データと非相関データの平均の分散

私はこのパラグラフをJames et al、Introduction to Statistical Learning、p183-184 [1]で読みました：高度に相関している多くの量の平均は、高度に相関していない多くの量の平均よりも分散が大きいため、LOOCVから得られるテスト誤差推定は、k倍CVから生じるテスト誤差推定よりも分散が大きくなる傾向があります。この主張の有効性をチェックするために、例えばRの数値例を教えてもらえますか？私は次のコードを使用してそれをチェックしようとしました： x = 1:100 #highly correlated data y = sample(100) #same data without correlation var(x) == var(y) # TRUE このコードの何が問題になっていますか？ LOOCVは「1つを残さない相互検証」を表します [1]：James、G.、Witten、D.、Hastie、T.、Tibshirani、R。（2013）、 Rでのアプリケーションを使用した統計学習の概要、 Springer Texts in Statistics、Springer Science + Business Media、ニューヨーク

7 correlation variance

3

標準化する前に変数間の相関関係をテストできますか？

私がやりたいことは、リソース選択を評価するためのGLMMを構築することであり、変数のセットがあります（距離を表すものと土地被覆の％を表すもの）があります。標準化する前に変数間の相関関係をテストできますか？最初に何をしたらいいのかよくわかりません。

7 correlation glmm standardization ecology

1

MCMCサンプラーで自己相関を引き起こしているものは何ですか？

ベイジアン分析を実行するときに確認する必要があるのは、MCMCサンプルの自己相関です。しかし、この自己相関を引き起こしている原因がわかりません。ここでは、彼らはそれを言っています [MCMCからの]高い自己相関サンプルは、変数間の強い相関によって引き起こされることがよくあります。 MCMCの高い自己相関サンプルの他の原因は何でしょうか。 JAGS出力で自己相関が観察されたときに確認するもののリストはありますか？ベイジアン分析で自己相関をどのように管理できますか？一部の人が痩せると言っているのを知っていますが、他の人はそれが悪いと言っています。より長い期間モデルを実行することは別の解決策であり、残念ながら時間がかかり、MCMC内のサンプルのトレースにも影響を与える場合があります。なぜ一部のアルゴリズムは、探索して無相関にするのにはるかに効果的ですか？最初にチェーンの初期値を変更する必要がありますか？

7 correlation bayesian autocorrelation mcmc jags

タグ付けされた質問 「correlation」

タグ付けされた質問「correlation」