タグ付けされた質問 「data-imputation」

不足しているデータを「埋める」ために使用されるメソッドの一般的なクラスを指します。これを行うために使用される方法は、通常、内挿(http://en.wikipedia.org/wiki/Interpolation)に関連しており、データが欠落している理由(たとえば、「ランダムに欠落している」)に関する仮定が必要です。

3
データポイントの平均化による2つの時系列の結合
Mean Squared Prediction Errorを最小化することにより、時系列データセットの予測とバックキャスト(つまり過去の予測値)を1つの時系列に結合したいと思います。 2001年から2010年までの時系列があり、2007年のギャップがあるとします。2001年から2007年のデータ(赤い線と呼ばれ)を使用して2007年を予測し、2008年から2009年のデータ(水色)を使用してバックキャストすることができました。行と呼びます)。Y bYfYfY_fYbYbY_b とデータポイントを、されたデータポイントY_i に結合したいとます。理想的には、平均二乗予測誤差(MSPE)を最小にするような重みを取得したいと考えています。これが不可能な場合、2つの時系列のデータポイント間の平均をどのように見つけることができますか?Y b w Y iYfYfY_fYbYbY_bwwwYiYiY_i Yi=w⋅Yf+(1−w)⋅YbYi=w⋅Yf+(1−w)⋅YbY_i = w\cdot Y_f + (1-w)\cdot Y_b 簡単な例として: tt_f <- ts(1:12, start = 2007, freq = 12) tt_b <- ts(10:21, start=2007, freq=12) tt_f Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2007 1 2 …

1
なぜこの多重代入が低品質なのですか?
次のRコードを考えます。 > data <- data.frame( a=c(NA,2,3,4,5,6),b=c(2.2,NA,6.1,8.3,10.2,12.13),c=c(4.2,7.9,NA,16.1,19.9,23)) > data a b c 1 NA 2.20 4.2 2 2 NA 7.9 3 3 6.10 NA 4 4 8.30 16.1 5 5 10.20 19.9 6 6 12.13 23.0 ご覧のように、大まかにデータを設計しましたc = 2*b = 4*a。そのため、欠損値はであると予想しますa=1, b=2, c=12。だから私は分析を行いました: > imp <- mi(data) Beginning Multiple Imputation ( …

2
調査回答の系統的エラーを説明するための補完
私は大規模な調査を行っており、学生に、特に母親の教育レベルを尋ねました。一部はそれをスキップし、一部は間違って答えた。最初の回答者の母親のサブサンプルが後でインタビューされ、同じ質問をしたので、私はこれを知っています。(私は母親の反応に関連するいくつかの、より少ない量のエラーがあると確信しています。) 私の課題は、この2番目の、より信頼性の高いデータソースを最大限に活用する方法を決定することです。少なくとも、これを使用して、完全なケースにのみ頼ることができた場合よりも、インテリジェントに欠落データを補完できます。しかし、データを照合できる子供たちの3/4(「母は小学校を卒業したことがない」と答えた)が母親の答えと矛盾している場合は、代入を使用して複数のデータセットを作成し、そこで不確実性を把握する必要があります。[追加:要点を言うために3/4と言いましたが、データを確認したので、40%近くが矛盾していることも伝えます] 私は個人的には母親の教育を混合モデルの予測子として使用しますが、他の状況について何か言いたいことがあれば、それらについても学びたいです。 筆記体や詳細でアドバイスを受けたいです。ありがとうございました! 更新:質問は未解決のままにしておきますが、WillとConjugate_Priorの回答に感謝しますが、より具体的で技術的なフィードバックを期待しています。 以下の散布図は、2つの変数が存在する10,000のケースで2つの変数がどのように関連しているかを示しています。それらは100以上の学校に入れ子になっています。それらは0.78で相関します。学生の回答-平均:5.12 sd = 2.05、ママの回答、平均= 5.02、sd = 1.92学生の回答が約15%のケースで欠落しています。

1
パネル研究からの時系列の欠落カウントデータの複数の代入
私は、パネルデータスタディから欠落しているデータの帰属に対処する問題に取り組んでいます(「パネルデータスタディ」を正しく使用しているかどうかはわかりません-今日学んだとおりです)。2003年の総死亡数データが​​あります。 2009年まで、8つの異なる地区と4つの年齢グループのすべての月(男性と女性)。 データフレームは次のようになります。 District Gender Year Month AgeGroup TotalDeaths Northern Male 2006 11 01-4 0 Northern Male 2006 11 05-14 1 Northern Male 2006 11 15+ 83 Northern Male 2006 12 0 3 Northern Male 2006 12 01-4 0 Northern Male 2006 12 05-14 0 Northern Male 2006 12 15+ …

2
どちらが良いですか、平均による置換と中央値による置換ですか?
私は一連のデータの欠損値を置き換えることを含むプロジェクトを行っています(これを初めて行う)。これは、2つのメソッドを使用することを含むreplacement by meanとreplacement by median欠損値を埋めるために。両方の方法を使用したデータの最小値、中央値、最大値、平均値、および標準偏差の結果に大きな違いはなく、どちらの方法が優れているか、どの方法を使用してどちらが優れているかを判断するにはどうすればよいか疑問に思いました結果は?

1
打ち切り変数の代入
変数が約200の医療データセットがあります。変数の1つは、バイオマーカー(特定の酵素の濃度)です。その分布は正しいスキューであり、問​​題は特定のレベルを超える値がそのレベルで打ち切られたり、打ち切られたりすることです。したがって、変数の平均は約10ですが、50を超える値は50として記録されます。 これらの打ち切り値に連続値を代入したいと思います。現在、R のマウスパッケージで複数の補完を使用していますが、他のシステムも利用可能であり、他のアプローチを受け入れています。私が考えていたのは、これらのすべての打ち切り値を欠落するように再コード化してから、代入を実行することでした。最初に打ち切られた帰属値のいずれかがカットオフを下回っている場合、それらはカットオフ値として割り当てられます。 これについての意見、および/またはこれに対処するためのより良い方法を知りたいのですが。

1
マウス補完機能はどのように機能しますか?
「マウス:Rの連鎖方程式による多変量代入(JSS 2011 45(3))」で説明されているように、誰かがマウス機能を使用した経験があるかどうか疑問に思いました。それぞれが欠落しているデータの程度が異なる多数の変数を含むデータセットがあります。 私の主な質問は、ベイジアン線形回帰を使用して欠損データを補完miceすることですが、最も重要なものから最も重要でないものまでの予測変数を自動的に使用しますか?また、帰属されたすべてのデータセットをおそらく平均化することは一般的ですか?

1
Rマウス補完パッケージで制限付き3次スプラインを使用する方法
Rマウス補完パッケージ内の補完モデルに、制限された3次スプライン(rmsパッケージなど)を統合する方法を知りたいです。 コンテキスト:私は生物医学研究を行っており、患者の特徴と患者の疾患の進行に関するデータからなるデータセットにアクセスできます。目標は、特定の結果の発生を予測するために、患者の特性と疾患の進行に基づいて予測モデルを構築することです。悲しいかな、一部の患者はすべての変数に関する完全な情報を持っていません。そのため、これらの欠損値を(複数回)推定するために、複数の代入手法を使用することにしました。 問題:複数の代入を使用する場合、相性と呼ばれるこの「ルール」があります。つまり、補完には、最終的な分析に使用する統計モデル(つまり、調査したい予測モデル)も補完モデルに含める必要があります(追加の情報を追加することが望ましい)。これは、考えられる非線形の関連付けを考慮することも意味します。特定の予測因子が他の予測因子と非線形の関連性を持っているかどうかはわかりませんので、補完モデルが制限付き3次スプラインに適合できるようにしたいと考えています。しかし、私はマウスでこれを行う方法を本当に理解していません。したがって、マウスに適したrcsを可能にする代入モデルの作成を手伝ってください。 モデレーターへの補足:補完とスプラインは特定の「統計的」主題であるため、この質問はCrossvalidatedに適していると思いました。ただし、この「ハウツー」の質問はプログラミングの性質に重点が置かれているため、他の場所の方が適していると思われる場合でも、移行された質問は問題になりません。この疑問の後、私はこの質問をStackOverflowにも投稿しました(/programming/45674088/how-to-use-restricted-cubic-splines-with-the-r-mice-imputation-package)

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

2
複数の帰属データセットを組み合わせる方法は?
単一の帰属データセットが必要です(たとえば、帰属国の一人当たり所得データから国グループのダミーを作成するため)。Rは、複数の帰属データ(Ameliaなど)を作成し、(MItoolsのように)複数のデータセットの結果を組み合わせるためのパッケージパッケージを提供します。私の懸念は、帰属されたすべてのデータを平均して単一のデータセットを取得できるかどうかです。もしそうなら、どうすればRでそれを行うことができますか?

2
ランダムフォレストの補完
ランダムフォレスト(特にRのrandomForest)を(予測子空間で)欠損値補完に使用することについて、2つの質問があります。 1)代入アルゴリズムはどのように機能しますか?特に、代入にクラスラベルがどのようにそしてなぜ必要なのですか?クラスごとに定義された欠損値を補完するために平均値に重みを付ける役割を果たす近接行列は何ですか? 2)欠損値を補完するためにクラスラベルが必要な場合-これを使用して、予測しようとしている新しいデータの欠損値を補完する方法を教えてください。

1
コックス比例ハザードに複数の代入を使用してから、rmsパッケージで検証しますか?
私はマウスパッケージを研究していますが、複数の代入を使用してCoxモデルを作成し、そのモデルをrmsパッケージのvalidate()機能で検証する方法をまだ発見していません。データセットを使用した、これまでのサンプルコードを次に示しますveteran。 library(rms) library(survival) library(mice) remove(veteran) data(veteran) veteran$trt=factor(veteran$trt,levels=c(1,2)) veteran$prior=factor(veteran$prior,levels=c(0,10)) #Set random data to NA veteran[sample(137,4),1]=NA veteran[sample(137,4),2]=NA veteran[sample(137,4),7]=NA impvet=mice(veteran) survmod=with(veteran,Surv(time,status)) #make a CPH for each imputation for(i in seq(5)){ assign(paste("mod_",i,sep=""),cph(survmod~trt+celltype+karno+age+prior, data=complete(impvet,i),x=T,y=T)) } #Now there is a CPH model for mod_1, mod_2, mod_3, mod_4, and mod_5. さて、CPHモデルを1つだけ使用していた場合は、次のようにします。 validate(mod_1,B=20) 私が抱えている問題は、5つのCPHモデル(代入ごとに1つ)を取得し、で使用できるプールされたモデルを作成する方法rmsです。miceパッケージにいくつかの組み込みのプール関数があることは知っていますが、それらがのcphオブジェクトで機能するとは思いませんrms。ここでのキーはrms、プール後も引き続き使用できることです。私はハレルのaregImpute()関数の使用を調査しましたが、例とドキュメントに従っていくらか問題があります。 mice使用する方が簡単なようです。

2
欠落率と多重代入
複数の補完(MI)を使用する場合に最低限許容される制限はありますか? たとえば、変数の欠損値がケースの20%であり、他の変数の欠損値はあるがそれほど高いレベルではない場合、MIを使用できますか?

1
データ補完のためのグアシアのプロセス
私は最近、ゲルマンらのガウスプロセスに出くわしました。(2013)、そして私は時系列データの補完に使用するためのそれらの潜在的なアプリケーションについてもっと学びたいと思っています。対象となるデータは、フォトプレチスモグラム(PPG、人の指の先に取り付けられ、血液量の変化を測定する光学センサー)を使用して収集された個人の心拍数の単一の可変時系列です。 問題は、乱雑なデータの特定のセクションがあることです。これらのアーティファクトを処理するために既存の編集戦略が開発されましたが、それらは主にEKGセンサーから収集されたデータに基づいて最適化されました。PPGの低速波形は、取得したデータへのアプリケーションを時々少し不格好にします。 簡単に言うと、データの手動編集を改善するために作成したR Shiny Appからの適切な信号に囲まれた孤立した乱雑なセクションの例を次に示します。 薄い灰色の線は、元の信号を表します(2kHから100Hzにダウンサンプリング)。赤い点が付いた黒い実線は、時間の経過とともにプロットされた心拍間隔(連続する心拍の間の秒単位の時間)のプロットです。心拍間隔は、これらのデータの分析における主要な変数になります。 たとえば、個人の心拍間隔を使用して、心拍変動を評価できます。残念ながら、ほとんどの編集戦略はばらつきを抑える傾向があります。さらに、これらのアーティファクトが存在する可能性が高い場合(参加者の移動のため)、特定のタスクがあります。つまり、これらの乱雑なセクションに削除のマークを付けて、ランダムに欠落しているものとして扱うことができませんでした。 利点は、心拍数の特性について多くのことを知っていることです。たとえば、成人の安静時の範囲は通常60〜100 BPMです。また、心拍数は呼吸周期の関数として変化することもわかっています。呼吸周期は、それ自体、静止している可能性のある周波数の範囲がわかっています。最後に、心拍数の変動に影響を与える低周波サイクルがあることを知っています(心拍数に対する交感神経と副交感神経の影響の組み合わせによって影響を受けると考えられています)。 上記の「悪いデータ」の比較的小さなセクションは、実際には私の主要な関心事ではありません。私は、このような孤立したケースでうまく機能するように見える、ある程度正確な季節補間アプローチを開発しました。 悪い信号と良い信号が定期的に混在しているデータセクションを処理するときに、さらに問題が発生します。 私がゲルマンらから理解しているように。(2013)、ガウス過程に対していくつかの異なる共分散関数を指定することが可能であるようです。これらの共分散関数は、観測されたデータと、成人(または子供)の心拍出量と呼吸出力の測定値について、かなりよく知られている事前分布によって通知されます。 たとえば、いくつかの心拍数が観測されたとします(fHRfHRf_{HR})、その平均心拍数に支配されるガウス過程を次のように指定することができます(これらのモデルを適用しようとするのは今回が初めてなので、ここで計算が終わっているかどうかをお知らせください)。 g1(T )∽ G P(0 、k1)g1(t)∽GP(0,k1)g_1(t) \backsim GP(0, k_1) どこ k1(t 、t』)=σ21e x p ( −2 s iん2(π(t −t』)fHRHz)2l21)k1(t,t′)=σ12exp(−2sin2(π(t−t′)fHRHz)2l12)k_1(t, t') = \sigma_1^2exp\Bigg(-\frac{2sin^2(\frac{\pi(t-t')f_{HR}}{Hz})}{2l_1^2}\Bigg) ここで、はサンプリングレート、は時間のインデックスです。HzHzHzttt 例に基づくGelman et al。(2013)彼らのテキストで提供して、この共分散関数を修正して特定の期間にわたる変動を可能にすることは可能であるようです。私にとっては、呼吸サイクル内および上記の低周波心拍変動サイクル内での推定値の変動を考慮したいと思います。fHRfHRf_{HR} 私の理解する最初の目標を達成するには、呼吸速度()のガウスプロセスと共分散関数、および共分散関数に両方のプロセスの機能を組み込んだガウスプロセスを指定する必要があります。fRfRf_R g2(T )∽ G P(0 、k2)g2(t)∽GP(0,k2)g_2(t) \backsim GP(0, k_2) どこ k2(t 、t』)=σ22e …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.