統計とビッグデータ correlation

4

この初心者の質問がこのサイトの正しい質問であることを願っています： 2つのサイトA、Bの生態系コミュニティの構成を比較したいとします。3つのサイトすべてに犬、猫、牛、鳥がいることを知っているので、各サイトでその存在量をサンプリングします（実際には「各サイトの各動物の予想される存在量）。たとえば、各サイトで各動物の5匹を数えると、AとBは非常に「類似」しています（実際、それらは「同じ」です）。しかし、サイトAで100匹の犬、5匹の猫、2頭の牛、および3羽の鳥を見つけた場合、サイトBで5匹の犬、3匹の猫、75頭の牛、および2羽の鳥を見つけます。サイトAとBは「異なる」と言えます。、彼らは正確に同じ種の組成を持っているにもかかわらず。（私はSorensenとBray-Curtisのインデックスを読みましたが、それらは犬や猫などの不在/存在のみを考慮し、それらの存在量は考慮していないようです。）これを決定する統計的検定はありますか？

10 hypothesis-testing distributions correlation multinomial compositional-data

3

欠落しているエントリとの相関行列を表示するにはどうすればよいですか？

変数間の関係を簡単に調べるために、これまでに収集した記事の相関関係のグラフィック表現を取得したいと思います。以前は（乱雑な）グラフを描いていましたが、データが多すぎます。基本的に、私はテーブルを持っています： [0]：変数1の名前 [1]：変数2の名前 [2]：相関値「全体的な」行列は不完全です（たとえば、V1 * V2、V2 * V3の相関関係がありますが、V1 * V3の相関関係はありません）。これをグラフィカルに表現する方法はありますか？

10 r data-visualization correlation

1

2つの時系列をギャップと異なるタイムベースに関連付ける方法は？

私は尋ねたこの質問を StackOverflowの上の上に、そしてここでそれを尋ねることをお勧めしました。 2つの時系列の3D加速度計データがあり、タイムベースが異なり（クロックは異なる時間に開始され、サンプリング時間中にわずかにクリープがあり）、異なるサイズの多くのギャップが含まれています（別々に書き込むことに関連する遅延のため）フラッシュデバイス）。私が使用している加速度計は、安価なGCDC X250-2です。加速度計を最高のゲインで実行しているので、データには大きなノイズフロアがあります。時系列にはそれぞれ約200万のデータポイント（512サンプル/秒で1時間以上）があり、約500の対象となるイベントが含まれます。一般的なイベントは100〜150サンプル（それぞれ200〜300 ms）です。これらのイベントの多くは、フラッシュ書き込み中のデータ停止の影響を受けます。したがって、データは原始的ではなく、非常にきれいでもありません。しかし、私の眼球検査では、興味のある情報が明確に含まれていることが示されています（必要に応じて、プロットを投稿できます）。加速度計は同様の環境にありますが、適度に結合されているだけです。つまり、各加速度計からどのイベントが一致するかを目で確認できますが、ソフトウェアでこれを行うことはできません。物理的な制限により、デバイスは軸が一致しないさまざまな方向にも取り付けられますが、それらは私が作成できる限り直交に近いです。したがって、たとえば、3軸の加速度計AおよびBの場合、+ Axは-By（上下）にマップされ、+ Azは-Bx（左右）にマップされ、+ Ayは-Bz（前後）にマップされます。。私の最初の目標は、縦軸の衝撃イベントを関連付けることですが、最終的には、a）軸のマッピングを自動的に検出し、b）マップされたエースのアクティビティを関連付け、c）2つの加速度計の動作の違い（ねじるなど）を抽出しますまたは屈曲）。時系列データの性質により、Pythonのnumpy.correlate（）は使用できなくなります。私もR's Zooパッケージを見てきましたが、それで進んでいません。信号解析のさまざまな分野を参考にしてきましたが、進歩はありませんでした。誰かが私にできること、または私が研究すべきアプローチについての手がかりはありますか？ 2011年2月28日更新：データの例を示すいくつかのプロットをここに追加しました。

10 time-series correlation unevenly-spaced-time-series

1

機能の冗長性を定量化する方法は？

分類の問題を解決するために使用する3つの機能があります。元々、これらの機能はブール値を生成したので、正と負の分類のセットがどれだけ重複しているかを調べることで、それらの冗長性を評価できました。代わりに、実際の値（スコア）を生成するように機能を拡張しました。それらの冗長性をもう一度分析したいと思いますが、その方法について完全に途方に暮れています。誰かが私にそれについてどうやって進むべきかについてのポインタやアイデアを提供できますか？私はこの質問が非常に曖昧であることを知っています、それは私が統計をあまり強く理解していないからです。ですから、答えがわからない場合は、私の理解を深めるのに役立つ質問があるかもしれません。編集：私は現在、主題についてウィキペディアを閲覧していますが、私が欲しいのは相関係数であると感じていますが、これが正しいアプローチであるかどうか、そして多くの利用可能な係数のうちどれが適切であるかはまだわかりません。編集2：ブール値の場合、私は最初に各機能に対して、それが真実であるサンプルのセットを作成しました。次に、2つのフィーチャ間の相関は、これらのセットの和集合のサイズに対するこれらのセットの交差のサイズでした。この値が1の場合、常に同じであるため、完全に冗長になります。0の場合、同じになることはありません。

10 correlation feature-selection

1

固有ベクトルの視覚的な説明について混乱：視覚的に異なるデータセットが同じ固有ベクトルを持つことができるのはなぜですか？

多くの統計教科書は、共分散行列の固有ベクトルが何であるかを直感的に説明しています。ベクトルuとzは固有ベクトル（まあ、固有軸）を形成します。意味あり。しかし、混乱するのは、生データではなく相関行列から固有ベクトルを抽出することです。さらに、まったく異なる生データセットは、同一の相関行列を持つことができます。たとえば、次の両方には次の相関行列があります。 [ 10.970.971][10.970.971]\left[\begin{array}{} 1 & 0.97 \\ 0.97 &1\end{array}\right] そのため、同じ方向を指す固有ベクトルがあります。 [ .71.71− .71.71][.71−.71.71.71]\left[\begin{array}{} .71 & -.71 \\ .71 & .71\end{array}\right] しかし、固有ベクトルが生データのどの方向であるかについて同じ視覚的解釈を適用すると、異なる方向を指すベクトルが得られます。誰かが私がどこが間違っているのか教えてもらえますか？二番目の編集：私が大胆であるかもしれないなら、以下の優れた答えで私は混乱を理解し、それを説明することができました。視覚的説明は、共分散行列から抽出された固有ベクトルが異なるという事実と一致しています。共分散と固有ベクトル（赤）： [ 1111] [ .7.72− .72。7][1111][。7−.72.72。7]\left[\begin{array}{} 1 & 1 \\ 1 & 1\end{array}\right] \left[\begin{array}{} .7 & -.72 \\ .72 & .7\end{array}\right] 共分散と固有ベクトル（青）： [ .25.5.51] [ …

10 correlation pca covariance-matrix eigenvalues

2

合計が正常ではない2つの*相関した*正規変数の例

私は、わずかに正常であるが共同して正常ではない相関ランダム変数のペアのいくつかの素晴らしい例を知っています。参照してください、この答えによってディリップSarwate、およびこれによって枢機卿を。また、合計が正常でない2つの正規確率変数の例も認識しています。Macroによるこの回答を参照してください。ただし、この例では、2つの確率変数は相関していません。非ゼロの共分散を持ち、合計が正規でない2つの正規確率変数の例はありますか？あるいは、2変量正規ではない場合でも、相関する2つの正規確率変数の合計が正常でなければならないことを証明することは可能ですか？ [コンテキスト：分布を求める宿題があります。ここで、とは相関標準法線です。私はそれらが二変量正常であることを指定することを意図した質問だと思います。しかし、私は non-zero に対するこの追加の仮定なしに何かが言えるかどうか疑問に思っています。]aX+bYaX+bYaX+bYXXXYYYρρ\rhoρρ\rho ありがとう！

10 correlation normal-distribution multivariate-analysis bivariate

4

比率データでピアソン相関を行うことができないのはなぜですか？

私が研究しているオンラインモジュールでは、ピアソン相関を比例データと一緒に使用してはならない、と述べています。何故なの？または、それが時々大丈夫、または常に大丈夫な場合、なぜですか？

10 correlation proportion compositional-data

1

なぜ統計学者は相互関係の尺度として相互情報を使用しないのですか？

私は非統計学者によるいくつかの講演を見てきました。彼らは、回帰（または同等/密接に関連する統計的検定）ではなく相互情報量を使用して相関測定を再発明しているようです。私は、統計学者がこのアプローチを採用しないという正当な理由があると思います。私の素人の理解は、エントロピー/相互情報量の推定者は問題が多く不安定である傾向があるということです。結果として、パワーにも問題があると思います。彼らは、パラメトリックテストフレームワークを使用していないと主張して、これを回避しようとします。通常、この種の作業は検出力の計算や、信頼性/信頼できる間隔でさえ問題になりません。しかし、悪魔の支持者の立場を取るには、データセットが非常に大きい場合、収束が遅いのはそれほど大きな問題でしょうか。また、これらの方法は、関連付けがフォローアップ調査によって検証されるという意味で「機能する」ように見える場合もあります。関連性の尺度として相互情報量を使用することに対する最も良い批評は何ですか、なぜそれが統計的実践で広く使用されていないのですか？編集：また、これらの問題をカバーする良い論文はありますか？

10 correlation mutual-information

1

標準化変数の共分散は相関ですか？

基本的な質問があります。とYの 2つの確率変数があるとします。平均を引いて標準偏差で割ることで標準化できます。つまり、X s t a n d a r d i z e d = （X − E （X ））バツXXYYY。バツs t a n da r d私はze d= （X− E（X））（SD （X））Xstandardized=(X−E(X))(SD(X))X_{standardized} = \frac{(X - E(X))}{(SD(X))} とYの相関、C o r （X 、Y ）は、XとYの標準化されたバージョンの共分散と同じですか？つまり、C o r （X 、Y ）= C o v （X s …

10 correlation covariance standardization

4

相関行列からの確率変数の最小相関サブセット

相関行列AAA。これは、Matlabのcorrcoef（）を通じてピアソンの線形相関係数を使用して取得しました。次元100x100の相関行列。つまり、100個の確率変数で相関行列を計算しました。これらの100個の確率変数の中で、相関行列に含まれる「相関がほとんどない」10個の確率変数を見つけたいと思います（測定するメトリックについて、相関行列Bと比較して相関行列Aに含まれる「より多くの相関」の量の定量化を参照してください）相関行列の全体的な相関関係）。私はペアワイズ相関のみを気にします。それらの10個の確率変数を妥当な時間内に見つけるための良い方法はありますか（たとえば、私は試したくない(10010)(10010)\binom{100}{10}組み合わせ）？近似アルゴリズムは問題ありません。

10 correlation

5

十分位数を使用して相関を見つけることは、統計的に有効なアプローチですか？

相関関係のない1,449データポイントのサンプルがあります（r二乗0.006）。データを分析したところ、独立変数の値を正と負のグループに分割すると、各グループの従属変数の平均に有意差があるように見えました。独立変数値を使用してポイントを10ビン（十分位数）に分割すると、十分位数と平均従属変数値（r-2乗0.27）の間に強い相関があるようです。私は統計についてあまり知らないので、ここにいくつかの質問があります：これは有効な統計的アプローチですか？最適な数のビンを見つける方法はありますか？このアプローチの適切な用語は何ですか。このアプローチについて学ぶためのいくつかの紹介リソースは何ですか？このデータの関係を見つけるために使用できる他の方法は何ですか？参照用の十分位数データは次のとおりです。https：//gist.github.com/georgeu2000/81a907dc5e3b7952bc90 編集：これはデータの画像です：業界の勢いは独立変数であり、エントリーポイントの品質は依存しています

10 regression correlation linear-model r-squared

1

2つのピアソン相関の強さを比較する方法は？

表に提示されているピアソン相関（r値）を相互に比較できるかどうか、レビュアーから尋ねられました（実際のr値を見ているだけでなく）あるものよりも「強い」と主張できる。これについてどう思いますか？私はこの方法を見つけました http://vassarstats.net/rdiff.html これが当てはまるかどうかはわかりません。

10 correlation pearson-r method-comparison

4

Rの離散時間イベント履歴（生存）モデル

Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります：ID、Event（各time-obsで1または0）およびTime Elapsed（観測の開始以降）、および他の共変量。モデルに合うようにコードを書くにはどうすればよいですか？従属変数はどれですか？Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか？必要ですか？ありがとう。

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

3

時系列間の類似点を見つける方法は？

次の例では、海の5つの水深で記録された水温測定の時系列で構成されるデータフレームがあり、各値はTempの日付DateTimeと水深に対応していますDepth。 set.seed(1) Temp <- rnorm(43800,sd=20) AirT <- rnorm(8760,sd=20) Depth <- c(1:5) DateTime = seq(from=as.POSIXct("2010-01-01 00:00"), to=as.POSIXct("2010-12-31 23:00"), length=8760) Time <- as.POSIXct(DateTime, format = "%Y-%m-%d %H:%M") DatT <- data.frame(Temp) ## bind together FinalDat <- cbind(DatT, Date = rep(Time,5)) FinalDat <- cbind(FinalDat, AirT = rep(AirT, 5), Depth = rep(Depth, each = 8760), …

10 r time-series correlation similarities

1

R線形回帰のカテゴリ変数「非表示」の値

これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する： a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因（要因x2であること）に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか？たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか？これの例を他の場所（例：ここ）で見ましたが、理解できる説明は見つかりませんでした。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

タグ付けされた質問 「correlation」

タグ付けされた質問「correlation」