タグ付けされた質問 「multivariate-analysis」

同時に分析される複数の変数があり、これらの変数が依存(応答)変数であるか、分析で唯一の変数である場合に分析します。これは、「複数」または「多変数」分析と対照的です。これは、複数の予測子(独立)変数を意味します。

2
同じ基礎母集団から2つの多変量分布がサンプリングされているかどうかをテストするにはどうすればよいですか?
たとえば、古いものと新しいものの2つの多変量データセットが与えられ、それらが同じプロセス(モデルを持たない)によって生成されたはずですが、おそらく収集/作成のラインに沿ってどこかにあるとしますデータ、何かがおかしくなりました。新しいデータを、たとえば古いデータの検証セットとして使用したり、古いデータに追加したりしたくないでしょう。 ウィルコクソンのランクサムなど、1次元の統計(変数ごと)を多数実行して、複数のテスト修正を試すことができますが、それが最適かどうかはわかりません(マルチテストの問題はもちろん、多変量データの複雑さをキャプチャするため)。1つの方法は、分類子を使用して、2つのデータセットを区別できるかどうかを確認することです(最適な最適な分類子が与えられた場合)。それはうまくいくように見えますが、それでもa)より良い方法があるperhpas b)なぜそれが違うのかをあなたに伝えるように本当に設計されていません


1
GBMパッケージとGBMを使用したキャレット
私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5%の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。 私の質問は次のとおりです。 1)これらの2つのパッケージは同じであっても違いがあるのはなぜですか(確率的ですが、5%がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの) 。 2)両方のパッケージを使用する利点または欠点はありますか? 3)無関係:irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

2
データにガウス分布がある場合、いくつのサンプルがそれを特徴付けますか?
単一の次元に分布するガウスデータには、それを特徴付ける2つのパラメーター(平均、分散)が必要であり、これらのパラメーターを合理的に高い信頼度で推定するには、ランダムに選択した約30個のサンプルで通常十分であるという噂があります。しかし、次元の数が増えるとどうなりますか? 2次元(高さ、重量など)では、「最適な」楕円を指定するには5つのパラメーターが必要です。3次元では、これは楕円体を記述するために9つのパラメーターに上昇し、4-Dでは14のパラメーターを取ります。これらのパラメータを推定するために必要なサンプル数も、同等のレートで増加するのか、遅いレートで増加するのか、それとも高いレートで増加するのかを知りたいと思います。さらに良いことに、与えられた次元数でガウス分布を特徴付けるためにいくつのサンプルが必要かを示唆する広く受け入れられた経験則があれば、それは知っておくとよいでしょう。 より正確には、平均点を中心とする対称的な「最適な」境界を定義し、すべてのサンプルの95%が落ちると確信できるとします。適切に高い(> 95%)信頼度でこの境界(1-Dの間隔、2-Dの楕円など)を近似するパラメーターを見つけるために必要なサンプル数と、その数がどのように変化するかを知りたい次元数が増加します。

3
パラメータ化可能な共分散行列を持つ正のk次元象限上の分布は何ですか?
負のシミュレーションに関する彼の問題に関するzzkの質問に続いて、共分散行列を設定できる正のk次元象限上の分布のパラメータ化されたファミリは何であるかと思います。Rk+R+k\mathbb{R}_+^kΣΣ\Sigma zzkで説明したように、分布から開始し、線形変換しても機能しません。Rk+R+k\mathbb{R}_+^kX⟶Σ1/2(X−μ)+μX⟶Σ1/2(X−μ)+μX \longrightarrow\Sigma^{1/2} (X-\mu) + \mu

2
Split-Plot ANOVA:Rでのモデル比較テスト
RのXおよびM引数で使用するための適切なモデル比較を使用して、分割プロットANOVAで効果をテストするにはどうすればよいanova.mlm()ですか?私は?anova.mlmDalgaard(2007)[1]に精通しています。残念ながら、それは分割プロットデザインのみをブラシします。2つの被験者内要因を含む完全にランダム化されたデザインでこれを行います。 N <- 20 # 20 subjects total P <- 3 # levels within-factor 1 Q <- 3 # levels within-factor 2 DV <- matrix(rnorm(N* P*Q), ncol=P*Q) # random data in wide format id <- expand.grid(IVw1=gl(P, 1), IVw2=gl(Q, 1)) # intra-subjects layout of data matrix library(car) # for Anova() fitA …

1
サンプルの共分散行列が反転可能でない場合はどうすればよいですか?
いくつかのクラスタリング手法に取り組んでいます。d次元ベクトルの特定のクラスターについて、多変量正規分布を仮定し、サンプルのd次元平均ベクトルとサンプルの共分散行列を計算します。 次に、目に見えない新しいd次元ベクトルがこのクラスターに属しているかどうかを判断しようとするときに、次のメジャーを使用してその距離をチェックしています: (Xi−μ^X)′σ^−1X(Xi−μ^X)>B0.95(p2,−p2)(Xi−μ^X)′σ^X−1(Xi−μ^X)>B0.95(p2,−p2)\left(X_i-\hat{\mu}_X\right)'\hat{\sigma}_X^{-1}\left(X_i-\hat{\mu}_X\right)>B_{0.95}\left(\frac{p}{2},\frac{-p}{2}\right) これには、共分散行列の逆行列を計算する必要があります。しかし、いくつかのサンプルを考えると、共分散行列が可逆であることを保証できません。そうでない場合はどうすればよいですか?σ^Xσ^X\hat{\sigma}_X ありがとう

1
多変量線形回帰といくつかの単変量回帰モデル
一変量回帰設定では、モデル化を試みます y=Xβ+noisey=Xβ+noisey = X\beta +noise ここで、は観測値のベクトルであり、は予測子をもつ計画行列です。解はです。y∈Rny∈Rny \in \mathbb{R}^nnnnX∈Rn×mX∈Rn×mX \in \mathbb{R}^{n \times m}mmmβ0=(XTX)−1Xyβ0=(XTX)−1Xy\beta_0 = (X^TX)^{-1}Xy 多変量回帰設定では、モデル化を試みます Y=Xβ+noiseY=Xβ+noiseY = X\beta +noise ここで、は、観測値と異なる潜在変数の行列です。解はです。y∈Rn×py∈Rn×py \in \mathbb{R}^{n \times p}nnnpppβ0=(XTX)−1XYβ0=(XTX)−1XY\beta_0 = (X^TX)^{-1}XY 私の質問は、異なる一変量線形回帰を実行することとどのように異なるのですか?後者の場合、従属変数間の相関を考慮することをここで読みましたが、数学からはわかりません。ppp

1
2D正規分布の半径のサンプリング分布
平均および共分散行列の2変量正規分布は、半径および角度極座標でことができます。私の質問は、のサンプリング分布とは何ですか、つまり、サンプルの共分散行列与えられたに、点から推定中心までの距離のサンプリング分布は何ですか?Sμμ\muΣΣ\Sigmaθ R X ˉ Xrrrθθ\thetar^r^\hat{r}xxxx¯x¯\bar{x}SSS 背景:ポイントから平均までの真の距離は、ホイト分布に従います。固有値との、及び、その形状パラメータである、およびそのスケールパラメータはです。累積分布関数は、2つのMarcum Q関数の対称差であることがわかっています。rrrxxxλ 1、λ 2 Σ λ 1 > λ 2、Q = 1μμ\muλ1,λ2λ1,λ2\lambda_{1}, \lambda_{2}ΣΣ\Sigmaλ1>λ2λ1>λ2\lambda_{1} > \lambda_{2}q=1(λ1+λ2)/λ2)−1√q=1(λ1+λ2)/λ2)−1q=\frac{1}{\sqrt{(\lambda_{1}+\lambda_{2})/\lambda_{2})-1}}ω=λ1+λ2ω=λ1+λ2\omega = \lambda_{1} + \lambda_{2} シミュレーションは、および推定およびを真のcdfにプラグインすると、大きなサンプルでは機能するが、小さなサンプルでは機能しないことを示唆しています。次の図は、200回の結果を示していますx¯x¯\bar{x}SSSμμ\muΣΣ\Sigma 指定された(軸)、(行)、および変位値(列)の各組み合わせについて、20個の2D法線ベクトルをシミュレートしますqqqxxxωω\omega 各サンプルについて、観測された半径からの特定の分位数を計算し r^r^\hat{r}x¯x¯\bar{x} 各サンプルについて、理論的なホイトから分位数(2D正常)累積分布関数を計算し、サンプル推定値をプラグインした後理論レイリーCDFからと。x¯x¯\bar{x}SSS 以下のように(分布が円形になる)、1に近づき、推定ホイトの位数は影響を受けない推定レイリー分位近づく。、特に分布のテールにおける経験的分位と推定するものが増加との間に、差異を、成長します。Q ωqqqqqqωω\omega

4
MANOVAと従属変数間の相関関係:どれほど強すぎるか?
MANOVAの従属変数は、「相関が強すぎる」べきではありません。しかし、どれだけ強い相関が強すぎるのでしょうか?この問題について人々の意見を得ることは興味深いでしょう。たとえば、以下の状況でMANOVAを続行しますか? Y1およびY2は、およびと相関していますr = 0.3r=0.3r=0.3p &lt; 0.005p&lt;0.005p<0.005 Y1とY2は、およびと相関しています。r = 0.7r=0.7r=0.7p = 0.049p=0.049p=0.049 更新 @onestopへの応答としてのいくつかの代表的な引用: 「MANOVAは、DV間に中程度の相関がある状況でうまく機能します」(San Francisco State Uniからのコースノート) 「従属変数には相関関係があり、これはManovaに適しています」(米国EPA統計入門) 「従属変数は概念的に関連している必要があり、それらは低レベルから中程度のレベルで互いに相関している必要があります。」(北アリゾナ大学からのコースノート) 「約.3から約.7に相関するDVは適格です」(Maxwell 2001、Journal of Consumer Psychology) nb Y1とY2の間の相互相関が独立変数のすべてのレベルで同じであるという仮定については言及していません。相互相関の実際の大きさに関するこの見かけ上の灰色の領域についてのみです。

3
多次元時系列による介入分析
時間の経過に伴うアルコールの販売に関する政策決定の結果を定量化するために介入分析を行いたいと思います。しかし、時系列分析はかなり新しいので、初心者向けの質問があります。 文献を調べると、他の研究者がARIMAを使用してアルコールの時系列売上高をモデル化し、介入の効果をモデル化するためのリグレッサとしてダミー変数を使用していることがわかります。これは妥当なアプローチのように思えますが、私のデータセットは、私が文献で得たデータセットよりもわずかに豊富です。最初に、私のデータセットは飲料の種類(つまり、ビール、ワイン、スピリッツ)ごとに分類され、次に地理的ゾーンごとにさらに分類されます。 分離されたグループごとに個別のARIMA分析を作成して結果を比較することもできますが、ここにはより良いアプローチがあると思います。多次元時系列データに慣れている人は、いくつかの指針や提案を提供できますか?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 &lt;- function(x,z,sx=0.3,sz=0.4) { x &lt;- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n &lt;- 500 x &lt;- runif(n)/20;z &lt;- runif(n); xs &lt;- seq(0,1,length=30)/20;zs &lt;- seq(0,1,length=30) pr &lt;- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth &lt;- matrix(test1(pr$x,pr$z),30,30) f &lt;- test1(x,z) y &lt;- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
多変量時系列のブロックブートストラップの代替
私は現在、Rで多変量時系列をブートストラップするために次のプロセスを使用しています。 ブロックサイズの決定- 各シリーズのブロックサイズを生成するパッケージb.star内の関数を実行しますnp 最大ブロックサイズを選択 tsboot選択したブロックサイズを使用して任意のシリーズで実行 ブートストラップ出力のインデックスを使用して、多変量時系列を再構築します 誰かがブロックブートストラップの代わりにmebootパッケージを使用することを提案しましたが、データセット全体を使用してブロックサイズを選択していないため、実行mebootして作成されたインデックスを使用する場合にシリーズ間の相関関係を保持する方法がわかりません1つのシリーズ。多変量設定でmebootの経験がある人がいれば、そのプロセスについてのアドバイスをいただければ幸いです。

2
ソフトしきい値となげなわペナルティ
私はこれまでに高次元のデータセットを使用したペナルティ付き多変量解析で理解したことを要約しようとしていますが、ソフトしきい値対ラッソ(または)ペナルティの適切な定義を得るのに苦労しています。L1L1L_1 より正確には、スパースPLS回帰を使用して、ゲノムデータを含む2ブロックのデータ構造を分析しました(一塩基多型、ここでは、範囲が{0,1,2}のマイナーアレルの頻度を数値変数と見なします)。連続的な表現型(性格特性または脳の非対称性を定量化するスコア、連続変数としても扱われます)。アイデアは、最も影響力のある予測因子(ここでは、DNA配列の遺伝的変異)を分離して、個体間の表現型の変異を説明することでした。 私は当初、罰則付きのPLS回帰と正則化されたCCAを特徴とするmixOmics Rパッケージ(以前はintegrOmics)を使用していました。Rコードを見ると、予測子の「スパース性」は、番目のコンポーネント、(アルゴリズム)に最も高い負荷(絶対値)を持つ上位変数を選択することによって簡単に誘導されることがわかりました。は反復であり、コンポーネントの変数の負荷を計算し、各反復で予測子ブロックを収縮します。概要については、スパースPLS:Omicsデータを統合するときの変数の選択を参照してください)。逆に、S。Keleşが共同で作成したsplsパッケージ(i i = 1 、… 、k k L 1kkk私iii = 1 、… 、ki=1,…,ki=1,\dots, kkkk同時次元削減し、変数選択のための回帰スパース部分最小二乗これらの著者によって行われたアプローチのより正式な説明については、)実装変数処罰のための-penalization。L1L1L_1 厳密な「全単射」、つまりソフトしきい値に基づく反復的な特徴選択と正則化の間に厳密な「全単射」があるかどうかは私には明らかではありません。だから私の質問は:2つの間に数学的な関連はありますか?L1L1L_1 参考文献 Chun、H.およびKelȩs、S.(2010)、同時次元削減と変数選択のためのスパース部分最小二乗法。王立統計学会誌:シリーズB、72、3-25。 Le Cao、K.-A.、Rossouw、D.、Robert-Granie、C.、and Besse、P.(2008)、A Sparse PLS for Variable Selection when Integrating Omics Data。遺伝学および分子生物学における統計的応用、7、第35条。

3
線形判別分析(LDA)のスケーリング値を使用して、線形判別式に説明変数をプロットできますか?
主成分分析で得られた値のバイプロットを使用して、各主成分を構成する説明変数を調べることができます。 これは線形判別分析でも可能ですか? 提供されている例では、データは「エドガーアンダーソンのアイリスデータ」(http://en.wikipedia.org/wiki/Iris_flower_data_set)です。ここで、虹彩データ: id SLength SWidth PLength PWidth species 1 5.1 3.5 1.4 .2 setosa 2 4.9 3.0 1.4 .2 setosa 3 4.7 3.2 1.3 .2 setosa 4 4.6 3.1 1.5 .2 setosa 5 5.0 3.6 1.4 .2 setosa 6 5.4 3.9 1.7 .4 setosa 7 4.6 3.4 1.4 .3 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.