タグ付けされた質問 「multivariate-analysis」

同時に分析される複数の変数があり、これらの変数が依存(応答)変数であるか、分析で唯一の変数である場合に分析します。これは、「複数」または「多変数」分析と対照的です。これは、複数の予測子(独立)変数を意味します。

3
2つ以上の回帰モデルの勾配を比較するために使用できるテストは何ですか?
1つの予測子に対する2つの変数の応答の違いをテストしたいと思います。最小限の再現可能な例を次に示します。 library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "virginica") m.ver <- gls(Sepal.Length ~ Petal.Width, data = iris, subset …

6
バイナリ分類の変数選択手順
学習セットの観測値よりも多くの変数/機能がある場合、バイナリ分類に適した変数/機能の選択は何ですか?ここでの目的は、分類エラーを最適に削減する機能選択手順を説明することです。 一貫性の表記法を修正できます:場合、をグループからの観測値の学習セットとします。したがって、は学習セットのサイズです。私たちは、セット多くの特徴(特徴空間の次元をIE)であることを。ましょ表すの座標番目の。i∈{0,1}i∈{0,1}i \in \{0, 1\}{xi1,…,xini}{x1i,…,xnii}\{x_1^i,\dots, x_{n_i}^i\}iiin0+n1=nn0+n1=nn_0 + n_1 = npppx[i]x[i]x[i]iiix∈Rpx∈Rpx \in \mathbb{R}^p 詳細を提供できない場合は、完全な参考文献を提供してください。 編集(継続的に更新):以下の回答で提案されている手順 貪欲な前方選択 バイナリ分類のための変数選択手順 バイナリ消去のための後方消去変数選択手順 メトロポリススキャン/ MCMC バイナリ分類の変数選択手順 ペナルティ付きロジスティック回帰 バイナリ分類の変数選択手順 これはコミュニティWikiであるため、より多くの議論と更新があります。 ある意味で、変数の順序付けは許可するが変数の選択は許可しない手順を提供します(機能の数の選択方法については非常にわかりにくいので、クロス検証を使用すると思いますか?)この方向の答えは?これはあなたが変数の数を選択する方法についての情報を追加するために、回答writterするコミュニティ必要はありませんされてウィキとして(?私はここで、この方向での質問opennedているの数を選択することが非常に高い次元でのクロス検証を(非常に高次元の分類で使用される変数))

5
2つの多変量分布間の「距離」の測定
リソースを探しやすくするために、私がやろうとしていることを説明するための良い用語を探しています。 したがって、ポイントAとBの2つのクラスターがあり、それぞれが2つの値XとYに関連付けられており、AとBの間の「距離」を測定したいとします。 (分布は正常であると仮定できます)。たとえば、XとYがAでは相関しているがBでは相関していない場合、分布は異なります。 直観的には、Aの共分散行列を取得し、Bの各点がそこに収まる可能性を調べ、逆も同様です(おそらくマハラノビス距離のようなものを使用して)。 しかし、それは少し「アドホック」であり、おそらくこれを記述するためのより厳密な方法があります(もちろん、実際には3つ以上の変数を持つ3つ以上のデータセットがあります-私は自分のデータセットのどれかを特定しようとしています外れ値です)。 ありがとう!

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


4
可変重要度ランキングは何に役立ちますか?
さまざまな重要度のランキング(すべての種類の多変量モデルのコンテキスト)に関しては、私はややニヒリストになりました。 多くの場合、作業の過程で、他のチームが可変重要度ランキングを作成するのを支援するか、自分の作業から可変重要度ランキングを作成するように依頼されます。これらのリクエストに応えて、私は次の質問をします この変数の重要度ランキングは何にしたいですか?それから何を学びたいですか?それを使用してどのような決定をしたいですか? 私が受け取る答えはほとんどの場合、2つのカテゴリーのいずれかに分類されます。 応答を予測する上で、モデル内のさまざまな変数の重要性を知りたいと思います。 重要度の低い変数を削除して、機能の選択に使用したいと思います。 最初の応答はトートロジーです(変数の重要度ランキングが必要なため、変数の重要度ランキングが必要です)。多変量モデルの出力を使用する場合、これらのランキングは心理的なニーズを満たすと仮定する必要があります。変数「重要度」を個別にランク付けすると、問題のモデルの多次元の性質が暗黙的に拒否されるように見えるため、これを理解するのは困難です。 2番目の応答は、基本的に後方選択の非公式バージョンに還元され、その統計的な罪はCrossValidatedの他の部分で十分に文書化されています。 また、重要度ランキングの不明確な性質と格闘しています。ランキングがどのような基礎概念を測定すべきかについてはほとんど合意がないようで、非常にアドホックな風味を与えています。重要度スコアまたはランキングを割り当てるには多くの方法があり、一般に欠点と注意事項があります。 ランダムフォレストおよびgbmsの重要度ランキングのように、アルゴリズムに大きく依存する場合があります。 それらは非常に大きな分散を持ち、基礎となるデータへの摂動で劇的に変化します。 それらは、入力予測子の相関の影響を大きく受ける可能性があります。 だから、私の質問は、変数重要度ランキングの統計的に有効な使用法は何ですか、またはそのような欲望の無益さに対する説得力のある議論(統計学者または素人に対する)は何ですか?私は、一般的な理論的議論とケーススタディの両方に興味があります。

2
観測レベルのマハラノビス距離の分布
私は多変量正規IIDサンプルがある場合はX1,…,Xn∼Np(μ,Σ)X1,…,Xn∼Np(μ,Σ)X_1, \ldots, X_n \sim N_p(\mu,\Sigma)、そして定義(サンプルポイントから重み付けに行列を使用したベクトルへのマハラノビス距離[平方]のようなもの)、の分布(サンプルへのマハラノビス距離サンプル共分散行列を使用した平均)?AとD 2 I(ˉ X、S )ˉ X Sd2i(b,A)=(Xi−b)′A−1(Xi−b)di2(b,A)=(Xi−b)′A−1(Xi−b)d_i^2(b,A) = (X_i - b)' A^{-1} (X_i - b)aaaAAA d2i(X¯,S)di2(X¯,S)d_i^2(\bar X,S)X¯X¯\bar XSSS 私はそれがであると主張する論文を見ていますが、これは明らかに間違っています:の(未知の)平均ベクトルを使用して分布が得られたでしょうおよび共分散行列。サンプルアナログをプラグインすると、Hotelling分布、スケーリングされた分布、またはそのようなものを取得する必要がありますが、できません。Muirhead(2005)でもAnderson(2003)でも、Mardia、Kent and Bibby(1979、2003 )でも正確な結果を見つけることができませんでした χ 2 P D 2 I(μ 、Σ )T 2 F (⋅ )χ 2 Pχ2pχp2\chi^2_pχ2pχp2\chi^2_pd2i(μ,Σ)di2(μ,Σ)d_i^2(\mu,\Sigma)T 2T 2T^{\ 2}F(⋅)F(⋅)F(\cdot)χ2pχp2\chi^2_p。どうやら、多変量正規分布は完全であり、多変量データを収集するたびに簡単に取得できるため、これらの人は異常値の診断を気にしませんでした:-/。 物事はそれよりも複雑かもしれません。Hotelling分布の結果は、ベクトル部分と行列部分の間の独立性の仮定に基づいています。このような独立性はとには当てはまりますが、とは当てはまりません。T 2T 2T^{\ 2}X¯X¯\bar XSSSXiXiX_iSSS

2
多変量回帰のランダムフォレスト
入力フィーチャと出力のマルチ出力回帰問題があります。出力には、複雑な非線形相関構造があります。dバツdバツd_xdydyd_y ランダムフォレストを使用して回帰を行いたいです。私が知る限り、回帰用のランダムフォレストは単一の出力でのみ機能するため、各出力に1つずつ、ランダムフォレストをトレーニングする必要があります。これは、それらの相関を無視します。dydyd_y 出力相関を考慮したランダムフォレストの拡張機能はありますか?多タスク学習のガウス過程回帰のようなものかもしれません。

2
「ランクを下げた回帰」とは何ですか?
私は統計学習の要素を読んでおり、セクション3.7「複数の結果の縮小と選択」が何であるかを理解できませんでした。RRR(Reduced-Rank Regression)について説明しており、前提は一般的な多変量線形モデルに関するものであり、係数は不明であり(推定される)、完全なランクを持たないことがわかっていることしか理解できません。私が理解しているのはそれだけです。 残りの数学は私を超えています。著者が「見せることができる」と言うことさえ助けにならず、物事を演習として残します。 誰かがここで何が起こっているのかを直感的に説明してもらえますか?この章では、おそらく新しい方法について説明していますか?または何?

3
非正定共分散行列はデータについて何を教えてくれますか?
多くの多変量観測値があり、すべての変数の確率密度を評価したいと思います。データは正規分布していると想定されます。変数の数が少ない場合、すべてが期待どおりに機能しますが、より大きな数に移動すると、共分散行列が非正定値になります。 Matlabの問題を次のように減らしました: load raw_data.mat; % matrix number-of-values x number of variables Sigma = cov(data); [R,err] = cholcov(Sigma, 0); % Test for pos-def done in mvnpdf. err> 0の場合、シグマは正定ではありません。 より高い次元で実験データを評価するためにできることはありますか?それは私のデータについて有用なことを教えてくれますか? 私はこの分野の初心者ですが、明らかな何かを見逃してしまった場合はおologiesびします。


2
名前の意味:精度(分散の逆数)
直感的には、平均は単なる観測の平均です。分散は、これらの観測値が平均値とどれだけ異なるかです。 分散の逆数が精度として知られている理由を知りたいです。これからどのような直観が得られますか?そして、なぜ精度行列は多変量(正規)分布の共分散行列と同じくらい有用なのでしょうか? 洞察してください?

3
多変量の自然な3次スプラインの近似
注: 1か月後に正しい答えが得られないため、SOに再投稿しました バックグラウンド モデルがあり、Y = f (X)fffY=f(X)Y=f(X)Y=f(\textbf{X}) n × m m Y n × 1XX\textbf{X}はパラメーターからのサンプルの行列で、はモデル出力のベクトルです。n×mn×mn \times mmmmYYYn×1n×1n \times 1 f (X 、Y )Yfffは計算量が多いためポイントを通る多変量3次スプラインを使用してを近似し、より多くのポイントでを評価できるようにします。fff(X、Y)(バツ、Y)(X,Y)YYY 質問 XとYの間の任意の関係を計算するR関数はありますか? 具体的にはsplinefun、単変量の場合にスプライン関数を生成する関数の多変量バージョンを探しています。 たとえば、これはsplinefun単変量の場合にどのように機能するかです x <- 1:10 y <- runif(10) foo <- splinefun(x,y) foo(1:10) #returns y, as example all(y == foo(1:10)) ## TRUE 私が試したこと mdaパッケージを確認しましたが、次のように動作するはずです。 library(mda) x …

2
変数を分類すると、重要ではないものから重要なものに変わります
多変量ロジスティック回帰モデルでは重要ではないことが判明した数値変数があります。ただし、グループに分類すると、突然重要になります。これは私には非常に直観に反しています。変数を分類するとき、いくつかの情報を放棄します。 どうすればいいの?

3
等尺性の対数比変換を実行する方法
移動行動(睡眠、座りがち、および身体活動の実行に費やした時間)に関するデータがあり、合計は約24時間(1日あたりの時間)です。これらの各動作に費やされた相対的な時間をキャプチャする変数を作成します-等尺性のログ比変換がこれを達成すると言われました。 Rでilr関数を使用する必要があるように見えますが、コードで実際の例を見つけることができません。どこから始めますか? 私が持っている変数は、睡眠時間、平均座りがちな時間、平均的な軽い身体活動、平均的な中程度の身体活動、平均的な激しい身体活動です。睡眠は自己申告でしたが、その他は有効な加速度計データの平均です。したがって、これらの変数の場合、ケースの合計は正確に24にはなりません。 私の推測:私はSASで働いていますが、このパートではRの方がはるかに使いやすいようです。そのため、最初に目的の変数のみを含むデータをインポートします。次に、acomp()関数を使用します。すると、ilr()関数の構文がわかりません。どんな助けでも大歓迎です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.