タグ付けされた質問 「cross-correlation」

同じ時間または異なる時間における、異なる時系列間の相関関係の尺度。

8
AとBがCと相関している場合、なぜAとBは必ずしも相関しないのですか?
私は経験的にそれが事実であることを知っています。この難問にぶつかるモデルを開発しました。また、必ずしもyes / noの答えではないのではないかと思います。つまり、AとBの両方がCと相関している場合、これはAとBの間の相関に関して何らかの意味を持つかもしれません。しかし、この意味は弱いかもしれません。それは単なる標識の方向であり、他には何もないかもしれません。 これが私が意味することです... AとBの両方がCと0.5の相関関係を持っているとしましょう。それを考えると、AとBの間の相関関係は1.0になります。0.5またはそれ以下になることもあると思います。しかし、マイナスになる可能性は低いと思います。それに同意しますか? また、標準のピアソン相関係数を検討している場合、または代わりにスピアマン(ランク)相関係数を検討している場合、影響はありますか?私の最近の経験的観測は、スピアマン相関係数に関連付けられていました。

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
Rの多変量時系列予測の遅れた相関を見つけてモデルを構築する方法
このページは新しく、統計とRはかなり新しいです。私は大学で、雨と川の水位の相関を見つけることを目的としたプロジェクトに取り組んでいます。相関が証明されたら、それを予測/予測したいと思います。 データ には、以下を含む特定の河川の数年(5分ごとに取得)のデータセットがあります。 降雨量(ミリメートル) 立方メートル/秒の河川流量 この川には雪がありませんので、モデルは雨と時間に基づいています。時々気温が氷点下になることがありますが、この状況は私のプロジェクトの範囲外であるため、これらの期間をデータから除外することを考えています。 例 ここでは、数時間後の雨と水の上昇からのサンプルデータのプロットがいくつかあります。 赤い線は川の流れです。オレンジは雨です。川で水が上がる前にいつも雨が降るのを見ることができます。時系列の終わりに再び雨が降り始めますが、後で川の流れに影響を与えます。 相関関係があります。Rでccfを使用して相関関係を証明するためにRで行ったことを次に示します。 相互相関 先行変数 遅れ これは、2番目の例(1つの降雨期間)に使用される私のRラインです。 ccf(arnoiaex1$Caudal, arnoiaex1$Precip, lag.max=1000, plot=TRUE, main="Flow & Rain") 私の解釈は: 雨が降る(最初に起こる) 遅れでピークに達する重要な相関関係があり(正確な数を確認できます。その部分は知っています)。≈ 450≈450\approx 450 相関が川の流れに影響を与える時間を見つける方法がわかりません。名前は「保持」だと思います。私が見るものは、川が雨の後に水を失うとき、最初のグラフと同じ形をしたグラフです。それに基づいて、保持がからピークでまで続くと言えない場合(返されたデータフレームで作成されたオブジェクトでこれを確認し、水位が値に戻ったときを確認できます) 「雨の前」のことです正しいですか?保持を見つけるより良い方法はありますか?≈ 450≈450\approx 450≈ 800≈800\approx 800ccf 私は正しいですか? 時系列について。この時系列には周期性や季節性はありません。雨はいつでも降り、影響を及ぼします。夏には減りますが、それでも起こります。一年中雨が多い地域です。 モデルと予測。 雨が降った後に川がどれだけの量を増やすかを予測する予測を行うことができるようにモデルを作成する方法がわかりません。私はいくつか試してみましたがarima、auto arimaあまり成功していません。Arima、varsまたは他の異なる多変量モデルを使用する必要がありますか?例へのリンクは大いに役立ちます。 この予測を作成する最良の方法を知っている場合は、どのモデルを使用すればよいか教えてください。他にもいくつか検討していることがありますが、簡単にするためにこの説明から除外しています。必要に応じてデータを共有できます。

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
ポイントプロセス間の相互相関の分析
統計的に妥当かどうかを知るために、私が使用している分析方法に関するアドバイスをお願いします。 2つのポイントプロセスおよびを測定し、決定したいイベントが何らかの形でイベントと相関している場合T1= t11、t12、。。。、t1nT1=t11、t21、。。。、tn1T^1 = t^1_1, t^1_2, ..., t^1_nT2= t21、t22、。。。、t2mT2=t12、t22、。。。、tm2T^2 = t^2_1, t^2_2, ..., t^2_mT1T1T^1T2T2T^2 文献で見つけた方法の1つは、相互相関ヒストグラムを作成する方法です。各について、特定の時間枠(前後)に含まれるすべてのイベントに対する遅延を見つけます。)、その後、これらすべての遅延のヒストグラムを作成します。t1ntn1t^1_nT2T2T^2t1ntn1t^1_n 2つのプロセスが相関していない場合、イベントの後(または前)ににイベントが発生する確率はすべての遅延で等しくなるため、フラットなヒストグラムが期待されます。一方、ヒストグラムにピークがある場合、これは、2点プロセスが何らかの形で互いに影響し合っている(または、少なくとも何らかの共通の入力がある)ことを示唆しています。T2T2T^2T1T1T^1 さて、これは素晴らしくて良いですが、ヒストグラムにピークがあるかどうかをどのように判断するのですか(特定のデータセットについては明らかにフラットであると言わなければなりませんが、それでも統計的な方法があるといいでしょうそれを確認する)? それで、ここで私がやったこと:をそのままにして「シャッフル」バージョンを使用して、ヒストグラムを数回(1000)生成するプロセスを繰り返しました。をシャッフルするには、すべてのイベント間の間隔を計算し、シャッフルし、それらを合計して新しいポイントプロセスを再構成します。RIでは、これを次のように行うだけです。T1T1T^1T2T2T^2T2T2T^2 times2.swp <- cumsum(sample(diff(times2))) そのため、1000個の新しいヒストグラムが作成され、と比較したのイベントの密度が表示されます。T2 ∗T2∗T^{2*}T1T1T^1 これらのヒストグラムの各ビンについて(それらはすべて同じようにビン化されます)、ヒストグラムの95%の密度を計算します。言い換えれば、たとえば、時間遅延5ミリ秒で、シャッフルされたポイントプロセスの95%で、T ^ 1のイベントの後にT ^ {2 *}のイベントを見つける確率xがあります。T2∗T2∗T^{2*}T1T1T^1 その後、すべての時間遅延に対してこの95%の値を取得し、「信頼限界」として使用します(おそらくこれは正しい用語ではありません)。したがって、元のヒストグラムでこの制限を超えるものはすべて「真」と見なすことができますピーク"。 質問1:この方法は統計的に正しいですか?そうでない場合、この問題にどのように取り組みますか? 質問2:もう1つ見たいのは、データの相関関係に「より長い」タイプがあるかどうかです。たとえば、2つのポイントのプロセスでイベントの発生率に同様の変化がある場合があります(これらの発生率はまったく異なる可能性があることに注意してください)が、その方法はわかりません。ある種のスムージングカーネルを使用して各ポイントプロセスの「エンベロープ」を作成し、2つのエンベロープの相互相関分析を実行することを考えました。他のタイプの分析を提案していただけますか? この非常に長い質問に感謝します。


3
イベント間の相関を見つけるためにどのアルゴリズムを使用できますか?
私は機械学習が初めてなので、いくつかの文献を見つけようとしていますが、Googleに何を求めるべきかさえわかりません。私のデータは次の形式です。 User A performs Action P User B performs Action Q User C performs Action R ... User C performs Action X User A performs Action Y User B performs Action Z ... 各アクションに特定の特性(日付、時刻、クライアントなど)がある場合。約300人のユーザーがおり、約20,000のアクションがあります。 質問: ユーザーアクション間に因果関係/相関関係があるかどうかを確認したいと思います。たとえば、「ユーザーEがアクションTを実行するたびに、2日後にユーザーGがアクションVを実行します」。しかし、その間に、他の多くのユーザーが他の多くのアクションを実行している可能性があり、相関関係が見つからない可能性があります。一部のユーザーは相関しているが、他のユーザーは完全に独立している可能性もあります。これは、機械学習で見つけられるものですか?私に役立つ特定のアルゴリズムまたはアルゴリズムのセットはありますか? アソシエーション分析とAprioriアルゴリズムについて読んでいましたが、既知の十分に区切られたデータセットを入力として必要とするように思えるので、これで必要なものが得られるとは思いません。行動。何を見るべきかについてのどんな提案でも大歓迎です!

2
相関係数の比較
2つのデータセットがあり、78と35のサンプルで約250.000の値があります。一部のサンプルは家族の一員であり、これはデータに影響を与える可能性があります。ペアワイズ相関を計算しましたが、0.7と0.95の間で変動しますが、ファミリー内とファミリー間で相関係数に有意差があるかどうか知りたいのですが?これを行う最良の方法は何ですか?ありがとう

1
非同期(不規則)時系列分析
2つの株価の時系列間のリードラグを分析しようとしています。通常の時系列分析では、VECM(Granger Causality)のCross Correlatonを実行できます。ただし、不規則な間隔の時系列で同じように処理するにはどうすればよいでしょうか。 仮説は、楽器の1つがもう1つをリードするというものです。 両方のシンボルのデータをマイクロ秒まで持っています。 RTAQパッケージを見て、VECMを適用してみました。RTAQは単変量時系列に基づいていますが、VECMはこれらのタイムスケールでは重要ではありません。 > dput(STOCKS[,])) structure(c(29979, 29980, 29980, 29980, 29981, 29981, 29991, 29992, 29993, 29991, 29990, 29992), .Dim = c(6L, 2L), .Dimnames = list(NULL, c("Pair_Bid", "Calc_Bid" )), index = structure(c(1340686178.55163, 1340686181.40801, 1340686187.2642, 1340686187.52668, 1340686187.78777, 1340686189.36693), class = c("POSIXct", "POSIXt"), tzone = ""), class = "zoo")

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
RでのCCF相関の解釈
ccf2つの時系列間の相関関係を見つけるために使用しています。私はそのようなプロットを得ています: lag = 0の相関に主に関心があることに注意してください。質問: このラグは相互相関が点線の上にあるので、ラグ= 0には相互相関があると正しく解釈しますか? この例で相互相関のレベルをどのように解釈すればよいですか、これは重要ですか(私は今それを解釈しているため、小さな相互相関があります)? acflag = 0の値のみを抽出するにはどうすればよいですか?

2
相互相関と相互情報量
相互相関と相互情報の違いは何ですか。これらの方法を使用してどのような問題を解決できますか。 コメントありがとうございます。明確にするために、質問は時系列分析ではなくイオマージュ分析への関心によって促されますが、その領域での啓蒙も評価されます

1
「ビールとおむつ」の相関分析を行う方法
次と同等のデータがあります。 shopper_1 = ['beer', 'eggs', 'water',...] shopper_2 = ['diapers', 'beer',...] ... このデータセットを分析して、次のような意味を持つ相関行列を取得します。xを購入した場合、yを購入する可能性があります。 Python(またはMATLAB以外の何か)を使用して、どうすればそれを回避できますか?いくつかの基本的なガイドライン、または私がどこを見るべきかへのポインタが役立つでしょう。 ありがとうございました、 編集-私が学んだこと: これらの種類の問題は、相関ルールの発見と呼ばれます。ウィキペディアには、そうするための一般的なアルゴリズムのいくつかをカバーする優れた記事があります。そうするための古典的なアルゴリズムは、Agriraw et alによるAprioriのようです。al。 これにより、Pythonインターフェースのデータマイニングパッケージであるorangeが表示されました。Linuxの場合、インストールする最良の方法は、提供されているsetup.pyを使用してソースからインストールすることです Orangeはデフォルトで、サポートされているいくつかの方法の1つでフォーマットされたファイルから入力を読み取ります。 最後に、単純なアプリオリ相関ルールの学習はオレンジ色で単純です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.