タグ付けされた質問 「multivariate-analysis」

同時に分析される複数の変数があり、これらの変数が依存(応答)変数であるか、分析で唯一の変数である場合に分析します。これは、「複数」または「多変数」分析と対照的です。これは、複数の予測子(独立)変数を意味します。

1
ガンマ分布を使用したディリクレ分布の構築
ましょうX1,…,Xk+1X1,…,Xk+1X_1,\dots,X_{k+1}互いに独立ランダム変数であり、パラメータを持つそれぞれ有するガンマ分布ショーをそのには、αi,i=1,2,…,k+1αi,i=1,2,…,k+1\alpha_i,i=1,2,\dots,k+1Yi=XiX1+⋯+Xk+1,i=1,…,kYi=XiX1+⋯+Xk+1,i=1,…,kY_i=\frac{X_i}{X_1+\cdots+X_{k+1}},i=1,\dots,kDirichlet(α1,α2,…,αk;αk+1)Dirichlet(α1,α2,…,αk;αk+1)\text{Dirichlet}(\alpha_1,\alpha_2,\dots,\alpha_k;\alpha_{k+1}) 関節PDF次に関節を見つけるPDF私はヤコビアンすなわち見つけることができません(X1,…,Xk+1)=e−∑k+1i=1xixα1−11…xαk+1−1k+1Γ(α1)Γ(α2)…Γ(αk+1)(X1,…,Xk+1)=e−∑i=1k+1xix1α1−1…xk+1αk+1−1Γ(α1)Γ(α2)…Γ(αk+1)(X_1,\dots,X_{k+1})=\frac{e^{-\sum_{i=1}^{k+1}x_i}x_1^{\alpha_1-1}\dots x_{k+1}^{\alpha_{k+1}-1}}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots \Gamma(\alpha_{k+1})}(Y1,…,Yk+1)(Y1,…,Yk+1)(Y_1,\dots,Y_{k+1})J(x1,…,xk+1y1,…,yk+1)J(x1,…,xk+1y1,…,yk+1)J(\frac{x_1,\dots,x_{k+1}}{y_1,\dots,y_{k+1}})

1
短い多変量時系列を予測する最も愚かな方法
29番目の時間単位について、次の4つの変数を予測する必要があります。約2年分の履歴データがあります。1と14と27はすべて同じ期間(または時期)です。最後に、私は、、、および Oaxaca-Blinderスタイルの分解を行っています。w d w c pWWWwdwdwdwcwcwcppp time W wd wc p 1 4.920725 4.684342 4.065288 .5962985 2 4.956172 4.73998 4.092179 .6151785 3 4.85532 4.725982 4.002519 .6028712 4 4.754887 4.674568 3.988028 .5943888 5 4.862039 4.758899 4.045568 .5925704 6 5.039032 4.791101 4.071131 .590314 7 4.612594 4.656253 4.136271 .529247 8 4.722339 4.631588 3.994956 …

3
判別分析とロジスティック回帰
判別分析の長所をいくつか見つけましたが、それらについて質問があります。そう: クラスが十分に分離されている場合、ロジスティック回帰のパラメーター推定値は驚くほど不安定です。係数は無限大になる可能性があります。LDAはこの問題の影響を受けません。 特徴の数が少なく、予測子分布が 各クラスでほぼ正規の場合、線形判別モデルはロジスティック回帰モデルよりも安定しています。XXX 安定性とは何ですか、なぜそれが重要なのですか?(ロジスティック回帰がその仕事に適している場合、なぜ安定性を気にする必要があるのですか?) LDAは、データの低次元ビューも提供するため、3つ以上の応答クラスがある場合に人気があります。 私はそれを理解していません。LDAは低次元ビューをどのように提供しますか? もっと長所や短所を挙げられるなら、それはいいことです。

2
ランク相関を使用した正準相関分析
正準相関分析(CCA)は、2つのデータセットの線形結合の通常のピアソンの積率相関(すなわち線形相関係数)を最大化することを目的としています。 これは、我々はまた、例えば、Spearman-使用する理由は非常に理由である-今、組合の直線のみの措置この相関係数があるという事実を検討またはKendall- τの間の任意のモノトーンを測定する(ランク)相関係数(必ずしも直線的ではない)の接続を変数。ρρ\rhoττ\tau したがって、私は次のことを考えていました:CCAの1つの制限は、目的関数のために、形成された線形の組み合わせ間の線形の関連付けをキャプチャしようとすることです。それが最大化することによって、ある意味でCCAを拡張することが可能ではないでしょう、Spearman-は、言う代わりPearson-ののR?ρρ\rhorrr そのような手順は、統計的に解釈可能で意味のあるものにつながりますか?(たとえば、ランクでCCAを実行することは理にかなっていますか?)非正常なデータを処理するときに役立つかどうか疑問に思っています...

1
次元の増加に伴う正規分布の密度
私が尋ねたい質問はこれです:正規分布の平均の1 SD内のサンプルの割合は、変量の数が増えるにつれてどのように変化しますか? (ほとんど)誰もが、1次元正規分布では、平均の1標準偏差内でサンプルの68%が見つかることを知っています。2、3、4、...次元についてはどうですか?私はそれが少なくなることを知っています...しかしどれだけ(正確に)?1、2、3 ... 10次元、および1、2、3 ... 10 SDの数値を示す表があると便利です。誰でもそのようなテーブルを指すことができますか? もう少しコンテキスト-最大128チャネルのデータを提供するセンサーがあります。各チャネルは(独立した)電気ノイズの影響を受けます。キャリブレーションオブジェクトを検知すると、十分な数の測定値を平均して、128個の標準偏差とともに128個のチャネルで平均値を取得できます。 しかし...個々の瞬間的な測定値に関して言えば、データは128個のベクトル値の単一の測定値のように128個の測定値のように反応しません。確かに、これは私たちが取るいくつかの重要な測定値(通常は128の4-6)を処理する最良の方法です。 このベクトル空間で「通常の」変動と「外れ値」とは何かを感じたい。私はこの種の状況に当てはまると私が説明したようなテーブルを見たことがあると思います-誰でもそれを指すことができますか?

1
GSVDはすべての線形多変量技術を実装していますか?
HervéAbdiによる一般化されたSVDに関する記事に出会いました。著者は述べた: 一般化SVD(GSVD)は、長方形行列を分解し、行列の行と列に課せられた制約を考慮します。GSVDは、より低いランクのマトリックスによる特定のマトリックスの加重一般化最小二乗推定値を提供するため、GSVDは制約を適切に選択することで、すべての線形多変量手法(正準相関、線形判別分析、対応分析、PLS -回帰)。 GSVDがすべての線形多変量手法(たとえば、正準相関、線形判別分析、コレスポンデンス分析、PLS回帰)にどのように関係するのか疑問に思っています。

2
Rの固有値と固有ベクトルから楕円をプロットする方法は?[閉まっている]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。 誰かが次の行列の固有値と固有ベクトルから楕円をプロットするRコードを思い付くことができます A =(2.20.40.42.8)A=(2.20.40.42.8) \mathbf{A} = \left( \begin{array} {cc} 2.2 & 0.4\\ 0.4 & 2.8 \end{array} \right)

5
相関する非正規データを生成する方法
相関する非正規データを生成する方法を見つけることに興味があります。理想的には、共分散(または相関)行列をパラメーターとして受け取り、それに近似するデータを生成するある種の分布です。しかし、ここに問題があります。私が見つけようとしている方法には、その多変量歪度や尖度も制御できる柔軟性が必要です。 Fleishmanの方法と通常の変量のべき乗法の使用はおなじみですが、これらの拡張機能のほとんどは、ユーザーが限界歪度と尖度の特定の組み合わせのみを許可し、多変量歪度/尖度をそのまま残していると思います。私が疑問に思ったのは、相関/共分散構造とともに、多変量歪度および/または尖度を指定するのに役立つ方法があるかどうかです。 約1年前、コピュラの分布に関するセミナーを受講しましたが、教授がぶどうのコピュラを使用することで、たとえば1次元の周辺それぞれで対称的であるが、共同で歪曲されたデータを生成できることをさりげなく言及したことを覚えています-その逆。または、さらに低い次元の余白には、最大の次元を対称(または非対称)に保ちながら、ゆがみや尖度を持たせることができます。私はそのような柔軟性が存在する可能性があるというアイデアに驚いていました。私は、前述の方法を説明する何らかの記事または会議論文を見つけようとしましたが、失敗しました:(。コピュラを使用する必要はありません。うまくいくものなら何でもオープンです。 編集:私が意味することを示すために、いくつかのRコードを追加しました。これまでのところ、Mardiaの多変量歪度と尖度の定義に精通しています。私が最初に問題に近づいたとき、対称コピュラ(この場合はガウス)を歪んだ周辺(この例ではベータ)で使用すると、周辺の単変量テストが重要になりますが、マルディアの多変量スキューネス/尖度のテストは重要だと思いました重要ではありません。私はそれを試してみましたが、期待通りに出ませんでした。 library(copula) library(psych) set.seed(101) cop1 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), c("beta", "beta"),list(list(shape1=0.5, shape2=5), list(shape1=0.5, shape2=5)))} Q1 <- rmvdc(cop1, 1000) x1 <- Q1[,1] y1 <- Q1[,2] cop2 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), c("norm", "norm"),list(list(mean=0, sd=1), list(mean = 0, sd=1)))} Q2 <- rmvdc(cop2, 1000) x2 <- Q2[,1] y2 <- Q2[,2] mardia(Q1) …

3
回帰モデルが適合しすぎていることを検出する方法は?
あなたが仕事をしているとき、あなたが何をしているのかを認識していると、モデルに過剰適合したときの感覚を養います。一つには、モデルの調整されたR二乗の傾向または悪化を追跡できます。また、主要変数の回帰係数のp値の同様の劣化を追跡できます。 しかし、誰か他の人の研究を読んだだけで、自分の内部モデル開発プロセスに関する洞察力がない場合、モデルが過剰適合であるかどうかを明確に検出する方法はありません。

2
相関ベルヌーイ試験、多変量ベルヌーイ分布?
私は仕事で持っている研究の質問を簡素化しています。私が5枚のコインを持っていると想像して、ヘッドを成功と呼びましょう。これらは成功確率p = 0.1の非常に偏ったコインです。コインが独立している場合、少なくとも1ヘッド以上の確率を取得するのは非常に簡単で、です。私のシナリオでは、私のベルヌーイ試験(コイントス)は独立していません。私がアクセスできる唯一の情報は、成功の確率(それぞれがp = .1です)と、バイナリ変数間の理論的なピアソン相関です。1−(1−1/10)51−(1−1/10)51-(1-1/10)^5 この情報だけで1つ以上の成功の確率を計算する方法はありますか?これらの理論的な結果はシミュレーション研究の精度を導くために使用されるため、シミュレーションベースのアプローチを避けようとしています。多変量ベルヌーイ分布を調べてきましたが、相関と成功の限界確率でのみ完全に指定できるとは思いません。私の友人は、ベルヌーイ辺縁でガウスコピュラを構築することを推奨し(Rパッケージを使用copula)pMvdc()、大きなサンプルで関数を使用して希望する確率を取得しましたが、どうやってそれを実行するのか正確にはわかりません。

3
多変量モードの計算効率の高い推定
ショートバージョン:連続分布からサンプリングされた多次元データセットのモードを推定する最も計算効率の良い方法は何ですか? 長いバージョン:モードを推定する必要があるデータセットがあります。モードは平均値または中央値と一致しません。サンプルを以下に示します。これは2Dの例ですが、NDソリューションの方が適しています。 現在、私の方法は モードの望ましい解像度に等しいグリッドでカーネル密度推定を計算します 計算された最大の点を探す 明らかに、これは多くの妥当ではないポイントでKDEを計算します。これは、高次元のデータポイントが多数ある場合、またはモードで良好な解像度が期待できる場合は特に悪いことです。 別の方法として、シミュレーテッドアニーリング、遺伝的アルゴリズムなどを使用して、KDEのグローバルピークを見つけることができます。 問題は、この計算を実行するよりスマートな方法があるかどうかです。

4
多変量回帰の前の単変量回帰のポイントは何ですか?
私は現在、小さなデータセットがあり、結果に対する治療の因果関係の影響に関心がある問題に取り組んでいます。 アドバイザーは、結果を応答として、次に治療割り当てを応答として、各予測変数に対して単変量回帰を実行するように指示しました。つまり、回帰を一度に1つの変数に適合させ、結果の表を作成するように求められています。私は「なぜこれを行うべきなのか」と尋ねましたが、答えは「どの予測因子が治療の割り当てと結果に関連しているかに興味があります。私の顧問は訓練を受けた統計学者であり、異なる分野の科学者ではないので、私は彼らを信頼したいと思っています。 これは理にかなっていますが、単変量解析の結果を使用する方法は明確ではありません。これからモデル選択を選択すると、推定値に大きなバイアスがかかり、信頼区間が狭くなりませんか?なぜこれを行う必要がありますか?私は混乱しており、私のアドバイザーは問題を提起したときにこの問題についてかなり不透明です。このテクニックに関するリソースはありますか? (注意:私のアドバイザーは、p値をカットオフとして使用していないが、「すべて」を考慮したいと言っています。)

2
二変量ポアソン分布の導出
最近、2変量ポアソン分布に遭遇しましたが、その導出方法について少し混乱しています。 分布は次のとおりです。 P(X=x,Y=y)=e−(θ1+θ2+θ0)θx1x!θy2y!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X=x,Y=y)=e−(θ1+θ2+θ0)θ1xx!θ2yy!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X = x, Y = y) = e^{-(\theta_{1}+\theta_{2}+\theta_{0})} \displaystyle\frac{\theta_{1}^{x}}{x!}\frac{\theta_{2}^{y}}{y!} \sum_{i=0}^{min(x,y)}\binom{x}{i}\binom{y}{i}i!\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)^{i} 私が収集できることから、θ0θ0\theta_{0}項はXXXとYの間の相関の尺度YYYです。したがって、XXXとYYYが独立している場合、θ0=0θ0=0\theta_{0} = 0あり、分布は2つの単変量ポアソン分布の積になります。 これを念頭に置いて、私の混乱は総和項に基づいています-この項はXXXとYの間の相関を説明すると仮定していYYYます。 私には、被加数は「成功」の確率が\ left(\ frac {\ theta_ {0}} {\ theta_ {1} \ theta_ {2}で与えられる二項累積分布関数のある種の積を構成するように思われます} \ right)(θ0θ1θ2)(θ0θ1θ2)\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)および「失敗」の確率はi!^ {\ frac {1} {min(x、y)-i}}によって与えられます。i!1min(x,y)−ii!1min(x,y)−ii!^{\frac{1}{min(x,y)-i}}なぜなら、(i!1min(x,y)−i!)(min(x,y)−i)=i!(i!1min(x,y)−i!)(min(x,y)−i)=i!\left(i!^{\frac{1}{min(x,y)-i!}}\right)^{(min(x,y)-i)} = i!、しかしこれで大丈夫です。 誰かがこの分布をどのように導き出すことができるかについての支援を提供できますか?また、このモデルを多変量シナリオ(3つ以上のランダム変数など)に拡張する方法を回答に含めることができれば、それは素晴らしいことです! (最後に、以前に投稿された同様の質問(2変量ポアソン分布を理解する)があったことに注意しましたが、その導出は実際には調査されませんでした。)

3
多変量ベルヌーリ分布の確率式
Iはn変量ベルヌーイ分布のイベントの確率の式が必要所与とP (X iは = 1 )= P I単一の要素および要素のペアの確率P (XをI = 1 ∧ X J = 1 )= P I 、J。同様に、Xの平均と共分散を与えることができます。X∈{0,1}nX∈{0,1}nX\in\{0,1\}^nP(Xi=1)=piP(Xi=1)=piP(X_i=1)=p_iP(Xi=1∧Xj=1)=pijP(Xi=1∧Xj=1)=pijP(X_i=1 \wedge X_j=1)=p_{ij}XXX 私はすでに多く存在することを知っ、所与の平均および共分散を有する多くのディストリビューションが存在する同じような特性を有する分布。私は、上の正規のいずれかの楽しみにしている{ 0 、1 } nはガウスの正規分布であると同様に、R nは、与えられた平均と共分散。{0,1}n{0,1}n\{0,1\}^n{0,1}n{0,1}n\{0,1\}^nRnRnR^n

5
異なる長さの時系列のSVD次元削減
次元削減手法として特異値分解を使用しています。 N次元のベクトルが与えられた場合D、アイデアは、相関のない次元の変換された空間で特徴を表現することです。これは、この空間の固有ベクトルのデータの情報のほとんどを重要度の高い順に凝縮します。 今、私はこの手順を時系列データに適用しようとしています。問題は、すべてのシーケンスの長さが同じではないことです。したがって、実際にnum-by-dimマトリックスを作成してSVDを適用することはできません。最初に考えたのは、行列を作成しnum-by-maxDimて空のスペースをゼロで埋めることにより、行列にゼロを埋め込むことでしたが、それが正しい方法であるかどうかはわかりません。 私の質問は、異なる長さの時系列への次元削減のSVDアプローチをどのように行いますか?あるいは、時系列で通常使用される固有空間表現の他の同様の方法はありますか? 以下は、アイデアを説明するためのMATLABコードです。 X = randn(100,4); % data matrix of size N-by-dim X0 = bsxfun(@minus, X, mean(X)); % standarize [U S V] = svd(X0,0); % SVD variances = diag(S).^2 / (size(X,1)-1); % variances along eigenvectors KEEP = 2; % number of dimensions to keep newX = U(:,1:KEEP)*S(1:KEEP,1:KEEP); % …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.