タグ付けされた質問 「multivariate-regression」

複数の応答(従属)変数を使用した回帰。

2
Rの多変量重回帰
2つの従属変数(DV)があり、それぞれのスコアは7つの独立変数(IV)のセットによって影響を受ける可能性があります。DVは連続的ですが、IVのセットは連続変数とバイナリコード変数の混合で構成されています。(以下のコードでは、連続変数は大文字で、バイナリ変数は小文字で記述されています。) この研究の目的は、これらのDVがIV変数によってどのように影響を受けるかを明らかにすることです。次の多変量重回帰(MMR)モデルを提案しました。 my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I) 結果を解釈するために、2つのステートメントを呼び出します。 summary(manova(my.model)) Manova(my.model) 両方の呼び出しからの出力は以下に貼り付けられ、大きく異なります。MMRの結果を適切に要約するために、2つのうちどちらを選択すべきかを誰かに説明してください。どんな提案も大歓迎です。 summary(manova(my.model))ステートメントを使用した出力: > summary(manova(my.model)) Df Pillai approx F num Df den Df Pr(>F) c 1 0.105295 5.8255 2 99 0.004057 ** d 1 0.085131 4.6061 2 99 …


6
多変量回帰が必要なのはなぜですか(一変量の回帰ではありません)?
私はちょうどこの素晴らしい本を読みました:Johnson and Wichernによる応用多変量統計分析。皮肉なことに、個別の単変量(回帰)モデルの代わりに多変量(回帰)モデルを使用する動機を理解することはできません。(a)多変量回帰と多変量回帰の違いと(b)多変量回帰の結果の解釈を説明するstats.statexchangeの投稿1および2を調べましたが、すべての情報から多変量統計モデルの使用を微調整することはできませんそれらについてオンラインで入手してください。 私の質問は: なぜ多変量回帰が必要なのですか?推論を引き出すために、結果を個別にではなく同時に考慮することの利点は何ですか。 多変量モデルを使用する場合、および複数の単変量モデルを使用する場合(複数の結果の場合)。 UCLAのサイトで、制御の軌跡、自己概念、および動機付けという3つの結果が得られた例を取り上げます。1.と2.に関して、3つの単変量多重回帰と1つの多変量多重回帰を行う場合の分析を比較できますか?互いに正当化する方法は? 多変量統計モデルを利用する学術論文にはあまり出会っていません。これは、多変量正規性の仮定、モデルのフィッティング/解釈の複雑さ、または他の特定の理由によるものですか?

2
多変量線形モデルを重回帰としてキャストする
多変量線形回帰モデルを多重線形回帰として再キャストすることは完全に同等ですか?私は、個別の回帰を実行するだけではありません。ttt 多変量線形モデルは重回帰として簡単に再パラメーター化できることを、いくつかの場所(ベイジアンデータ分析-ゲルマンら、および多変量オールドスクール-マーデン)で読みました。ただし、どちらのソースもこれについて詳しく説明していません。彼らは本質的にそれについて言及し、その後多変量モデルの使用を続けます。数学的には、最初に多変量バージョンを作成し、 Yn×t=Xn×kBk×t+Rn×t,Yn×t=Xn×kBk×t+Rn×t, \underset{n \times t}{\mathbf{Y}} = \underset{n \times k}{\mathbf{X}} \hspace{2mm}\underset{k \times t}{\mathbf{B}} + \underset{n \times t}{\mathbf{R}}, 太字の変数は、その下のサイズの行列です。いつものように、はデータ、は設計行列、は正規分布の残差、\ mathbf {B}は推論の対象です。X R BYY\mathbf{Y}XX\mathbf{X}RR\mathbf{R}BB\mathbf{B} これを使い慣れた多重線形回帰として再パラメーター化するには、変数を次のように単純に書き換えます。 ynt×1=Dnt×nkβnk×1+rnt×1,ynt×1=Dnt×nkβnk×1+rnt×1, \underset{nt \times 1}{\mathbf{y}} = \underset{nt \times nk}{\mathbf{D}} \hspace{2mm} \underset{nk \times 1}{\boldsymbol{\beta}} + \underset{nt \times 1}{\mathbf{r}}, ここで使用される再パラメーター化は、y=row(Y)y=row(Y)\mathbf{y} = row(\mathbf{Y}) 、β=row(B)β=row(B)\boldsymbol\beta = row(\mathbf{B})、およびD=X⊗InD=X⊗In\mathbf{D} = \mathbf{X} \otimes \mathbf{I}_{n}。 row()row()row()は、行列の行が端から端まで長いベクトルに配置されることを意味し、⊗⊗\otimesはクロネッカー、つまり外積です。 …

1
多変量線形回帰といくつかの単変量回帰モデル
一変量回帰設定では、モデル化を試みます y=Xβ+noisey=Xβ+noisey = X\beta +noise ここで、は観測値のベクトルであり、は予測子をもつ計画行列です。解はです。y∈Rny∈Rny \in \mathbb{R}^nnnnX∈Rn×mX∈Rn×mX \in \mathbb{R}^{n \times m}mmmβ0=(XTX)−1Xyβ0=(XTX)−1Xy\beta_0 = (X^TX)^{-1}Xy 多変量回帰設定では、モデル化を試みます Y=Xβ+noiseY=Xβ+noiseY = X\beta +noise ここで、は、観測値と異なる潜在変数の行列です。解はです。y∈Rn×py∈Rn×py \in \mathbb{R}^{n \times p}nnnpppβ0=(XTX)−1XYβ0=(XTX)−1XY\beta_0 = (X^TX)^{-1}XY 私の質問は、異なる一変量線形回帰を実行することとどのように異なるのですか?後者の場合、従属変数間の相関を考慮することをここで読みましたが、数学からはわかりません。ppp

1
全体的な切片なしでlme4の多変量混合モデルの係数を解釈する方法は?
多変量(つまり、複数の応答)の混合モデルをで近似しようとしていRます。ASReml-rおよびSabreRパッケージ(外部ソフトウェアが必要)を除いて、これはでのみ可能であるようMCMCglmmです。パッケージに付属する論文MCMCglmm(pp.6)で、Jarrod Hadfieldは、そのようなモデルを複数の応答変数を1つの長い形式の変数に再形成し、全体的なインターセプトを抑制するようにフィッティングするプロセスについて説明しています。私の理解では、切片を抑制すると、応答変数の各レベルの係数の解釈がそのレベルの平均になるように変更されます。したがって、上記を前提として、多変量混合モデルを当てはめることは可能lme4ですか?例えば: data(mtcars) library(reshape2) mtcars <- melt(mtcars, measure.vars = c("drat", "mpg", "hp")) library(lme4) m1 <- lmer(value ~ -1 + variable:gear + variable:carb + (1 | factor(carb)), data = mtcars) summary(m1) # Linear mixed model fit by REML # Formula: value ~ -1 + variable:gear + variable:carb + (1 | factor(carb)) …

3
大規模なデータセットのガウス過程回帰
私はオンラインビデオと講義ノートからガウシアンプロセス回帰について学んでいますが、ポイントのデータセットがある場合、データはn次元の多変量ガウシアンからサンプリングされると想定しています。だから私の質問は、nが数千万の場合で、ガウスプロセス回帰はまだ機能しますか?カーネルマトリックスは巨大ではなく、プロセスは完全に非効率的になりますか?もしそうなら、データセットから何度もサンプリングするような、これに対処するためのテクニックが用意されていますか?そのような場合に対処するためのいくつかの良い方法は何ですか? んnnんnnんnn

4
複数の出力回帰のためのニューラルネットワーク
34の入力列と8つの出力列を含むデータセットがあります。問題を解決する1つの方法は、34の入力を受け取り、各出力列に対して個別の回帰モデルを構築することです。この問題は、特にニューラルネットワークを使用して、1つのモデルだけで解決できるかどうか疑問に思っています。 多層パーセプトロンを使用しましたが、線形回帰のように複数のモデルが必要です。シーケンスツーシーケンス1の学習は実行可能なオプションですか?TensorFlowを使用してみましたが、float値を処理できないようです。 特にニューラルネットワークを使用して1つの統合モデルのみを使用してこの問題に取り組むための提案があれば、高く評価されます。 Ilya Sutskever、Oriol Vinyals、&Quoc V. Le(2014)。ニューラルネットワークを使用したシーケンス間学習 神経情報処理システムの進歩、27。(pdf)

1
Rのなげなわによる多変量線形回帰
高度に相関している多くの従属変数(DV)(〜450)を予測するための縮小モデルを作成しようとしています。 私の独立変数(IV)も非常に多く(〜2000)、非常に相関しています。 なげなわを使用して各出力の縮小モデルを個別に選択した場合、各従属変数をループするときに、独立変数の同じサブセットを取得することが保証されません。 Rの投げ縄を使用する多変量線形回帰はありますか? これはグループなげなわではありません。グループラッソはIVをグループ化します。lassoも実装する多変量線形回帰(DVがスカラーのベクトルではなく行列であることを意味します)が必要です。(注:NRHが指摘するように、これは真実ではありません。グループラッソは、IVをグループ化する戦略を含むが、DVなどの他のパラメーターをグループ化する戦略も含む一般的な用語です) スパースオーバーラップセットラッソと呼ばれるものに入るこのペーパーを見つけました 多変量線形回帰を行うコードは次のとおりです > dim(target) [1] 6060 441 > dim(dictionary) [1] 6060 2030 > fit = lm(target~dictionary) これは、単一のDVで投げ縄を行ういくつかのコードです > fit = glmnet(dictionary, target[,1]) そして、これは私がやりたいことです: > fit = glmnet(dictionary, target) Error in weighted.mean.default(y, weights) : 'x' and 'w' must have the same length 一度にすべてのターゲットに適合する機能を選択する

2
複数の空間解像度/スケールを持つソースからの時系列情報の結合
さまざまなセンサーから入手できる多くの衛星ラスター画像があります。これらから、より粗いものは非常に豊富な時間分解能を持っています。中解像度のラスターは取得日が少ない傾向がありますが、それでもある程度の情報は利用できます。より細かい解像度のものは、2年以内に観測された日付が2から6に及ぶ非常に低い時間解像度を持っています。誰かがこのタイプのマルチスケール時系列を何らかの方法で研究するための努力を知っているかどうか疑問に思っていましたか?より粗いものから得られる情報を使用して、より細かいスケールで将来の値を予測することに興味があります。データは関連している必要があります(画像が同じ領域をカバーしている)ことは私には理にかなっていますが、予測モデルでこの情報の結合を開始する方法がわかりません。

1
線形モデルにおける従属変数の異分散性と分布
私は、多変量olsモデルを実行しています。ここで、従属変数は食品消費スコアであり、特定の食品カテゴリの消費発生の加重和によって作成されたインデックスです。 モデルのさまざまな仕様を試し、予測子をスケーリングまたは対数変換しましたが、Breusch-Paganテストは常に強い不均一分散を検出します。 変数が省略される通常の原因は除外します。 特にログのスケーリングと正規化の後、外れ値は存在しません。 私はPolychoric PCAを適用して作成された3/4インデックスを使用していますが、OLSからそれらの一部またはすべてを除外しても、Breusch-Pagan出力は変更されません。 モデルで使用されるダミー変数はごくわずかです(通常)。性別、婚姻状況。 各領域のダミーを含めて制御し、ads-R ^ 2の点で異分散性領域を20%増やしても、サンプルの領域間で発生する高度の変動を検出します。 サンプルには20,000の観測があります。 問題は私の従属変数の分布にあると思います。私が確認できた限り、正規分布は私のデータの実際の分布の最も近い近似です(おそらく十分に近くないかもしれません)ここで、従属変数を正規化し、対数変換した赤の2つのqqプロットをそれぞれここに添付します通常の理論分位数)。 私の変数の分布を考えると、不均一性は従属変数の非正規性によって引き起こされる可能性があります(モデルのエラーに非正規性を引き起こしますか?) 従属変数を変換する必要がありますか?glmモデルを適用する必要がありますか?-私はglmで試しましたが、BPテストの出力に関しては何も変更されていません。 グループ間の変動を制御し、不均一分散(ランダムインターセプト混合モデル)を取り除くより効率的な方法はありますか? 前もって感謝します。 編集1: 私は食物消費スコアの技術マニュアルをチェックしましたが、通常、指標は「正規に近い」分布に従うと報告されています。実際、Shapiro-Wilk Testは、変数が正規分布であるという帰無仮説を拒否します(最初の5000 obsでテストを実行できました)。残差に対するフィッティングのプロットからわかるのは、フィッティングの値が低い場合、エラーの変動性が減少することです。以下にプロットを添付します。プロットは、線形混合モデル、正確には398の異なるグループを考慮したランダムインターセプトモデルから得られます(相互相関係数= 0.32、グループの平均解放は0.80以上)。私はグループ間の変動性を考慮に入れましたが、異分散性はまだあります。 また、さまざまな分位回帰を実行しました。私は特に0.25分位点の回帰に関心がありましたが、誤差の等分散に関しては改善がありませんでした。 私は今、ランダムな切片の分位点回帰を当てはめることによって、分位点とグループ(地理的領域)の間の多様性を同時に考慮することを考えています。良いアイデアかもしれませんか? さらに、ポアソン分布は、変数の値が低い場合でも少し(通常より少し小さい)変動しても、私のデータの傾向に従っているように見えます。ただし、問題は、ポアソンファミリのglmをフィッティングするには正の整数が必要であり、私の変数は正の値ですが、整数のみではありません。したがって、glm(またはglmm)オプションを破棄しました。 編集2: あなたの提案のほとんどは、堅牢な推定量の方向に行きます。しかし、それは解決策の1つにすぎないと思います。データの不均一性の理由を理解すると、モデル化する関係の理解が向上します。エラー分布の底部で何かが起こっていることは明らかです-OLS仕様からのこの残差のqqplotを見てください。 この問題にさらに対処する方法について何か考えが思い浮かびますか?分位点回帰でさらに調査する必要がありますか? 問題が解決しました ? あなたの提案に従って、私は最終的にランダムなインターセプトモデルトリングを実行して、技術的な問題を私の研究分野の理論に関連付けました。モデルのランダムな部分に含まれていると、誤差項が等分散性になる変数が見つかりました。ここに私は3つのプロットを投稿します: 1つ目は、34グループ(州)のランダムインターセプトモデルから計算されます。 2つ目は、34のグループ(地域)を持つランダム係数モデルからのものです。 最後に、3番目は、398個のグループ(地区)を持つランダム係数モデルの推定結果です。 前回の仕様では、不等分散性を制御していると言っていいでしょうか?

1
多変量回帰またはいくつかの回帰分析を使用する必要がありますか?
私はそれぞれ96変数を持つ45人の参加者のデータセットを持っています(ただし、一部の測定値はありません)。年齢や障害など、一部の変数は単純ですが、他の測定値は特定のテストのスコアです(たとえば、1つのテストの結果として5つの値がある)。私は5つのテストのデータを持っています。3つの異なる時点で与えられ、前述のとおり、テストごとに複数のスコアが時々あります。 データセットは非常に大きいので(参加者の数に対する特徴の量が与えられた場合)、以前のすべての結果(年齢、障害、同じ以前のテストのすべてのスコアなど)を前提として、テストのスコアを予測することにしました。つまり、これは基本的に、回帰を使用して45人の参加者で約10の特徴を与えて5つの特徴を予測したいということです(正確な係数、p値、R二乗測定値を表示したい)。 予測したい特徴のそれぞれに対して定期的な回帰を行うべきですか、それとも一度に予測したいすべての特徴に対して多変量回帰を使用すべきですか?違いはなんですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.