タグ付けされた質問 「multiple-imputation」

複数の代入は、データの多変量特徴を保持することを目的とした一連の確率代入ルーチンを指します

1
なぜこの多重代入が低品質なのですか?
次のRコードを考えます。 > data <- data.frame( a=c(NA,2,3,4,5,6),b=c(2.2,NA,6.1,8.3,10.2,12.13),c=c(4.2,7.9,NA,16.1,19.9,23)) > data a b c 1 NA 2.20 4.2 2 2 NA 7.9 3 3 6.10 NA 4 4 8.30 16.1 5 5 10.20 19.9 6 6 12.13 23.0 ご覧のように、大まかにデータを設計しましたc = 2*b = 4*a。そのため、欠損値はであると予想しますa=1, b=2, c=12。だから私は分析を行いました: > imp <- mi(data) Beginning Multiple Imputation ( …

1
予測変数が欠落している重回帰
(y、x1、x2、⋯ 、xん)(y、バツ1、バツ2、⋯、バツん)(y,x_{1},x_{2},\cdots, x_{n})との形式のデータセットが与えられたとします(y、x1、x2、⋯ 、xn − 1)(y、バツ1、バツ2、⋯、バツん−1)(y,x_{1},x_{2},\cdots, x_{n-1})。xの値に基づいてyyyを予測するタスクが与えられます。:我々は2つの回帰どこ見積もり yとバツバツxyy= f1(x1、⋯ 、xn − 1、xん)= f2(x1、⋯ 、xn − 1)(1)(2)(1)y=f1(バツ1、⋯、バツん−1、バツん)(2)y=f2(バツ1、⋯、バツん−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} 我々はまた、の値を予測する回帰推定の値に基づいて、(X 1、⋯ 、X N - 1):であり、 X N =をfを3(X 1、⋯ 、X N - 1)バツんバツんx_{n}(x1、⋯ 、xn − 1)(バツ1、⋯、バツん−1)(x_{1},\cdots, x_{n-1})バツん= f3(x1、⋯ 、xn − 1)(3)(3)バツん=f3(バツ1、⋯、バツん−1) …

2
SPSSの多重回帰に関する複数の代入の質問
現在、帰属データを使用して重回帰モデルを実行していますが、いくつか質問があります。 バックグラウンド: SPSS 18の使用。私のデータはMARのようです。ケースのリストごとの削除では、92ケースのみが残り、複数の代入は分析のために153ケースを残します。すべての仮定が満たされました-1つの変数ログが変換されました。9 IVのカテゴリ5〜5、3スケール、1間隔。DVスケール。標準の重回帰のEnterメソッドを使用します。 私のDVは、事前スコアと事後スコアメジャー間のスコアの差です。これらの変数の両方に多くのケースがありません-これらのそれぞれに欠損値を代入してから、それらの違いを計算して私のDVを計算します(これを行うにはどうすればよいですか)、またはDVのデータを代入するだけですか?最も適切なアプローチはどれですか? 変換されたデータまたは変換されていない変換されたデータに対して補完を実行する必要がありますか? データが欠落していない場合でも、すべての変数を代入プロセスに入力する必要がありますか、それとも10%以上のケースで欠落している変数のデータを代入する必要がありますか? リストワイズで削除されたケースとDVの分散がほとんどないIVのアカウントで回帰を実行しました。その後、複数の代入を行った後、完全なファイルで回帰を実行しました-結果は非常に似ていますが、9つのIVはまだ私のDVの分散の約12%のみを予測しますが、私のIVの1つは、それが重要な貢献をしていることを示しています(これはたまたまログ変換された変数です)... 結論にほとんど違いがない場合、つまり、IVがdvを十分に予測できない場合、または完全なデータを報告する場合、元のデータを報告する必要がありますか?

1
Rマウス補完パッケージで制限付き3次スプラインを使用する方法
Rマウス補完パッケージ内の補完モデルに、制限された3次スプライン(rmsパッケージなど)を統合する方法を知りたいです。 コンテキスト:私は生物医学研究を行っており、患者の特徴と患者の疾患の進行に関するデータからなるデータセットにアクセスできます。目標は、特定の結果の発生を予測するために、患者の特性と疾患の進行に基づいて予測モデルを構築することです。悲しいかな、一部の患者はすべての変数に関する完全な情報を持っていません。そのため、これらの欠損値を(複数回)推定するために、複数の代入手法を使用することにしました。 問題:複数の代入を使用する場合、相性と呼ばれるこの「ルール」があります。つまり、補完には、最終的な分析に使用する統計モデル(つまり、調査したい予測モデル)も補完モデルに含める必要があります(追加の情報を追加することが望ましい)。これは、考えられる非線形の関連付けを考慮することも意味します。特定の予測因子が他の予測因子と非線形の関連性を持っているかどうかはわかりませんので、補完モデルが制限付き3次スプラインに適合できるようにしたいと考えています。しかし、私はマウスでこれを行う方法を本当に理解していません。したがって、マウスに適したrcsを可能にする代入モデルの作成を手伝ってください。 モデレーターへの補足:補完とスプラインは特定の「統計的」主題であるため、この質問はCrossvalidatedに適していると思いました。ただし、この「ハウツー」の質問はプログラミングの性質に重点が置かれているため、他の場所の方が適していると思われる場合でも、移行された質問は問題になりません。この疑問の後、私はこの質問をStackOverflowにも投稿しました(/programming/45674088/how-to-use-restricted-cubic-splines-with-the-r-mice-imputation-package)

2
多重補完されたデータセットを組み合わせるためのルービンのルールの適用
多重に代入されたデータ(たとえば、重回帰分析、分散分析)に対して実行されたかなり基本的な分析セットの結果をプールしたいと思っています。複数の代入と分析はSPSSで完了していますが、SPSSはF値、共分散行列、R二乗などを含むいくつかの統計のプール結果を提供しません。 私は、Rに挑戦するか、利用可能なマクロを試してこの問題に対処するためにいくつかの試みを行いましたが、問題を正常に解決していません(たとえば、マウスで5つ以上の代入の統計をプールすることで問題が発生するなど)。 この時点で、SPSSが生成する出力を使用して、Rubinのルールを適用し、これらを手動で計算してみたいと思います。ただし、SPSSが生成する出力に基づいて、代入内の分散()をどのように導出できるかわかりません。 U¯= 1メートルΣメートルj = 1UjU¯=1m∑j=1mUj\bar U = \frac 1 m\sum_{j=1}^mU_j これについての詳細な説明を本当にいただければ幸いです。

1
複数の代入と期待値の最大化(EM)の相対的な利点
私は問題を抱えています y= a + by=a+by = a + b 私はyを観察しますが、もも観察ません。見積もりたいbaaabbb b = f(x )+ ϵb=f(x)+ϵb = f(x) + \epsilon ある種の回帰モデルを使用し、を推定できます。これは私にを与えます。次に見積もることができましたBaaab^b^\hat b b^= f(x )+ ϵb^=f(x)+ϵ\hat b = f(x) + \epsilon 最初の問題:回帰モデルが予測するにつながる可能性があるは何の意味も持たないだろうという負、。これを回避する方法はわかりません(私がよく扱った種類の問題ではありません)。他の人が日常的に扱っているようなもののようです。なんらかの非ガウスGLM?Baaab^b^\hat b 主な問題は、推定から生じるメインモデルの不確実性をどのように説明するかです。欠けている共変量に対して以前に複数の代入を使用しました。しかし、これは「潜在的なパラメーター」が欠けているものです。代わりに、それは結果データであり、代入するのは問題ないようです。ただし、「潜在的な」パラメーターに使用されるEMについてよく耳にします。なぜかはわかりませんが、EMがこれらのコンテキストで優れているかどうかもわかりません。MIは、理解、実装、およびコミュニケーションの両方で直感的です。EMは直感的に理解できますが、実装するのがより難しいように見えます(私はそれを行っていません)。 b^b^\hat b 私が上で得た種類の問題に対してEMは優れていますか?もしそうなら、なぜですか?次に、線形モデルまたはセミパラメトリック(GAM)モデルのRでそれをどのように実装しますか?

2
Rの2因子反復測定ANOVA後の事後検定?
Rで2因子(両方とも被験者内)のANOVAを繰り返し測定した後、事後テスト(Tukey HSD)を実行する方法に関する解決策を見つけるのに問題があります。ANOVAには、aov -functionを使用しました。 summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) 他の質問への回答を読んだ後、他の機能(lmeなど)を使用してANOVAを再実行する必要があることを知りました。これが私が思いついたものです。 Lme.mod <- lme(dv ~ x1*x2, random=list(subject=pdBlocked(list(~1, pdIdent(~x1-1), pdIdent(~x2-1)))), data=df1) anova(Lme.mod) 主な効果はどちらも有意でしたが、相互作用の効果はありませんでした。次に、これらの関数を事後比較に使用しました。 summary(glht(Lme.mod, linfct=mcp(x1="Tukey"))) summary(glht(Lme.mod, linfct=mcp(x2="Tukey"))) しかし、いくつかの問題がありました: まず、Rヘルプファイルには、「双方向ANOVAまたはANCOVAモデル(...)multcompバージョン1.0-0以降で対象のパラメーターを定義する場合、mcp関数は注意して使用する必要があります。主な効果の比較が生成されます。のみ、共変量と交互作用を無視します(古いバージョンは交互作用項で自動的に平均化されました)警告が表示されます。そして確かに、私は次の警告メッセージを受け取りました: Warning message: In mcp2matrix(model, linfct = linfct) : covariate interactions found -- default contrast might be inappropriate もう1つの不可解な点は、両方の主要な効果は有意でしたが、要因の1つ(x1)の事後比較に有意差はなかったということです。これに出会ったことはありません。スクリプト/分析は正しい/適切ですか、それとも欠けているものはありますか?どんな助けでも大歓迎です!

1
多重代入後の平均比較
欠損値のあるデータについて、グループ間の単純な平均比較(基本的なANOVA F検定)を行う必要があります。多重補完にはR のマウスパッケージを使用していますが、プールできるのは線形モデル係数または結果のみです。R2R2R^2 各線形モデルフィットから複数のF統計をプールするために組み合わせる方法を知っている人はいますか?または、F検定の標準誤差をどのように計算できますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.