タグ付けされた質問 「multivariate-analysis」

同時に分析される複数の変数があり、これらの変数が依存(応答)変数であるか、分析で唯一の変数である場合に分析します。これは、「複数」または「多変数」分析と対照的です。これは、複数の予測子(独立)変数を意味します。

5
大規模な統計分析を実行するには、どのようなスキルが必要ですか?
多くの統計業務では、大規模データの経験が求められます。大規模なデータセットを操作するために必要な統計および計算スキルの種類は何ですか。たとえば、1,000万サンプルのデータセットが与えられた場合に回帰モデルを構築するのはどうでしょうか。

13
多変量データの外れ値を識別する最良の方法は何ですか?
少なくとも3つの変数を持つ多変量データの大きなセットがあるとします。外れ値を見つけるにはどうすればよいですか?ペアワイズ散布図は、2次元の部分空間のいずれでも外れ値ではない3次元に異常値が存在する可能性があるため、機能しません。 回帰問題ではなく、真の多変量データについて考えています。したがって、堅牢な回帰またはコンピューティングレバレッジを含む回答は役に立ちません。 1つの可能性は、主成分スコアを計算し、最初の2つのスコアの2変量散布図で外れ値を探すことです。それが機能することが保証されますか?より良いアプローチはありますか?

3
結合分布がガウスではないガウス確率変数のペアを持つことは可能ですか?
就職の面接で誰かが私にこの質問をしましたが、彼らの共同分布は常にガウス分布であると答えました。私はいつでも平均と分散と共分散を持つ二変量ガウスを書くことができると思いました。2つのガウス分布の結合確率がガウス分布ではない場合がありますか?

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Rの多変量重回帰
2つの従属変数(DV)があり、それぞれのスコアは7つの独立変数(IV)のセットによって影響を受ける可能性があります。DVは連続的ですが、IVのセットは連続変数とバイナリコード変数の混合で構成されています。(以下のコードでは、連続変数は大文字で、バイナリ変数は小文字で記述されています。) この研究の目的は、これらのDVがIV変数によってどのように影響を受けるかを明らかにすることです。次の多変量重回帰(MMR)モデルを提案しました。 my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I) 結果を解釈するために、2つのステートメントを呼び出します。 summary(manova(my.model)) Manova(my.model) 両方の呼び出しからの出力は以下に貼り付けられ、大きく異なります。MMRの結果を適切に要約するために、2つのうちどちらを選択すべきかを誰かに説明してください。どんな提案も大歓迎です。 summary(manova(my.model))ステートメントを使用した出力: > summary(manova(my.model)) Df Pillai approx F num Df den Df Pr(>F) c 1 0.105295 5.8255 2 99 0.004057 ** d 1 0.085131 4.6061 2 99 …

2
独立成分分析と因子分析の関係は何ですか?
私は独立成分分析(ICA)を初めて使用し、メソッドの基本的な理解しかありません。ICAは、1つの例外を除いて、因子分析(FA)に似ているように思われます:ICAは、観測されたランダム変数が非ガウスの独立成分/因子の線形結合であると仮定しますが、従来のFAモデルは、観測されたランダム変数相関のあるガウス成分/因子の線形結合です。 上記は正確ですか?

5
多重比較のために重回帰のp値を調整するのは良い考えですか?
あなたがサービスの需要の関連する予測因子を見つけようとしている社会科学研究者/計量経済学者であると仮定しましょう。需要を説明する2つの結果/従属変数があります(サービスのyes / noおよび機会の数を使用)。需要を理論的に説明できる予測変数/独立変数が10個あります(年齢、性別、収入、価格、人種など)。2つの別々の重回帰を実行すると、20の係数推定とそのp値が得られます。回帰に十分な独立変数があると、遅かれ早かれ、従属変数と独立変数の間に統計的に有意な相関を持つ少なくとも1つの変数が見つかります。 私の質問:回帰にすべての独立変数を含めたい場合、複数のテストのp値を修正するのは良い考えですか?先行研究への言及は大歓迎です。

3
条件付きガウス分布の背後にある直感とは何ですか?
と仮定します。その後の条件付き分布と仮定多変量通常、平均して分布しています。X∼N2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma})X1X1X_1X2=x2X2=x2X_2 = x_2 E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) および分散:Var[P(X1|X2=x2)]=σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} より多くの情報があるため、分散が減少することは理にかなっています。しかし、平均式の背後にある直感は何ですか?と間の共分散は、条件付き平均にどのように影響しますか?X1X1X_1X2X2X_2

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
傾向スコアは、回帰に共変量を追加することとどのように異なりますか?
傾向スコアと因果分析に比較的慣れていないことは認めます。 新人として私には明らかではないことの1つは、傾向スコアを使用した「バランス」が、回帰に共変量を追加したときに起こることと数学的に異なることです。操作の違いは何ですか?また、回帰に部分母集団の共変量を追加するよりも優れているのはなぜですか? メソッドの経験的比較を行ういくつかの研究を見てきましたが、2つのメソッドの数学的特性と、PSMが回帰共変量を含むのに因果解釈に役立つ理由に関する良い議論は見ていません。また、この分野では多くの混乱と論争があり、事態をさらに難しくしています。 これについての考えや、区別をよりよく理解するための優れたリソース/論文へのポインタはありますか?(Judea Pearlの因果関係の本をゆっくりと進めているので、それを指す必要はありません)

1
Biplotとの関係におけるPCAおよびコレスポンデンス分析
Biplotは、主成分分析(および関連する手法)の結果を表示するためによく使用されます。コンポーネントの負荷とコンポーネントのスコアを同時に表示するデュアルまたはオーバーレイ散布図です。本日、@ amoebaから、バイプロット座標がどのように生成/スケーリングされるかを尋ねる質問に対する私のコメントから離れた答えを彼が与えたと通知されました。そして彼の答えは、いくつかの方法をある程度詳細に検討しています。@amoebaは、私の経験をbiplotと共有するかどうかを尋ねました。 私の経験(理論と実験の両方)は、非常に控えめですが、それほど頻繁に認識されない2つのことを強調しています。(2)PCA、コレスポンデンス分析(およびその他の既知の手法)は、実際にはバイプロットの特定のケースです。または、少なくとも、彼らは双子の双子です。バイプロットを実行できる場合は、他の2つを実行できます。 あなたへの私の質問は次のとおりです:彼ら(PCA、CA、Biplot)はあなたのためにどのように接続されていますか?あなたの考えを共有してください。私はそれについて自分のアカウントを投稿しています。さらに回答を追加し、重要な発言をお願いします。

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

7
平面上のサンプルの中央値、またはより高い順序のスペースについて受け入れられている定義はありますか?
もしそうなら、何?そうでない場合は、なぜですか? ライン上のサンプルの場合、中央値は合計絶対偏差を最小化します。定義をR2などに拡張するのは自然に思えますが、私はそれを見たことがありません。しかし、その後、私は長い間左のフィールドに出てきました。

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
相関行列のSVDは加算的である必要がありますが、
次の論文で見つかった主張を再現しようとしています。GeneExpression Dataからの相関バイクラスターの検索です。 命題4.。次にあります:バツ私J= R私CTJXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} 私。場合加法モデルと完全bicluster、次いで列の相関を持つ完全biclusterあります。 ii。が加法モデルを備えた完全な双である場合、は行に相関がある完全な双クラスターです。 iii。と両方が加法モデルを備えた完全な双クラスターである場合、は完全な相関双クラスターです。 X I J C J X I J R I C J X I JR私RIR_{I}バツ私JXIJX_{IJ}CJCJC_Jバツ私JXIJX_{IJ}R私RIR_ICJCJC_Jバツ私JXIJX_{IJ} これらの命題は簡単に証明できます... ...しかし、もちろん、彼らはそれを証明しません。 この命題を実証できるかどうかを確認するために、紙に書かれた簡単な例とベース+カスタムRコードを使用しています。 corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4) (表1Fから) 論文で説明されているように、標準X = svdフォームをに変換するカスタムコード: X = R C TうんdVTUdVTUdV^Tバツ= R CTX=RCTX=RC^{T} svdToRC <- function(x, ignoreRank = FALSE, r = length(x$d), zerothresh=1e-9) …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.