タグ付けされた質問 「missing-data」

データに情報(ギャップ)の欠如が存在する場合、つまり、完全でない場合 したがって、分析やテストを実行する際には、この機能を考慮することが重要です。

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
ランダムフォレストモデルの欠落しているカテゴリカル予測子変数を推定する方法は?
ランダムフォレストを構築するために使用しているx、yデータのセットがあります。xデータは、いくつかのNAを含む値のベクトルです。そのためrfImpute、欠けているデータを処理してランダムフォレストを作成するために使用します。今、私は新しい目に見えない観測x(NAあり)を持っており、yを予測したいと思います。すでに成長したランダムフォレストを使用できるように、欠損値をどのように代入するのですか?rfImputeこの関数は、xとyを必要としているようです。予測のためにxしかありません。 私の質問はこの質問に似ています(ただし異なります)。たとえば、同じ虹彩データセットを使用できます。私が参照する質問の回答のコードを正しく解釈した場合iris.na[148, , drop=FALSE]、ステートメントのコードiris.na2 = rbind(iris.imputed, iris.na[148, , drop=FALSE])はSpecies(Y値)を含む新しいデータを表します。私の問題では、私は知らないでしょう— Speciesランダムフォレストを使用してそれを予測したいと思います。4つの独立変数がありますが、一部はNA特定の行のものである可能性があります。類推を続けるために、私が4つの変数のうち3つを持っていると想像してください(1つは欠落しています)。私はその価値を主張したいと思います。それから私は知らない種を予測したいと思います。 私がイラストを追加すべきだというガンのコメントに応えて、虹彩データセットの観点から説明させてください。花に関する次のデータがあるとします。私はそれが、、であることを知っていますがSepal.Length、Sepal.WidthでPetal.LengthはありませんPetal.Width。を代入してPetal.Widthから、RFモデル内でこれらの4つの値を使用してを予測したいと思いますSpecies。

2
多重補完されたデータセットを組み合わせるためのルービンのルールの適用
多重に代入されたデータ(たとえば、重回帰分析、分散分析)に対して実行されたかなり基本的な分析セットの結果をプールしたいと思っています。複数の代入と分析はSPSSで完了していますが、SPSSはF値、共分散行列、R二乗などを含むいくつかの統計のプール結果を提供しません。 私は、Rに挑戦するか、利用可能なマクロを試してこの問題に対処するためにいくつかの試みを行いましたが、問題を正常に解決していません(たとえば、マウスで5つ以上の代入の統計をプールすることで問題が発生するなど)。 この時点で、SPSSが生成する出力を使用して、Rubinのルールを適用し、これらを手動で計算してみたいと思います。ただし、SPSSが生成する出力に基づいて、代入内の分散()をどのように導出できるかわかりません。 U¯= 1メートルΣメートルj = 1UjU¯=1m∑j=1mUj\bar U = \frac 1 m\sum_{j=1}^mU_j これについての詳細な説明を本当にいただければ幸いです。

2
カルマンフィルターで不完全なデータを処理する方法
カルマンフィルターで不完全なデータを処理するための典型的なアプローチは何ですか?私は、観測ベクトルのいくつかの要素が状況について話しているytyty_t全体の観測ベクトルの場合は異なる欠けている、ytyty_t逃しています。これについての別の考え方は、観測されたベクトルの次元pppが各時点で異なるということです。 私のコンテキストをもう少し説明すると、観測値は各時点で実行されたロジスティック回帰から推定されたパラメーターです。各ロジスティック回帰には同じ共変量が含まれていますが、その時点のデータの共線性が原因で推定値が定義されていない場合があります。

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
複数の代入と期待値の最大化(EM)の相対的な利点
私は問題を抱えています y= a + by=a+by = a + b 私はyを観察しますが、もも観察ません。見積もりたいbaaabbb b = f(x )+ ϵb=f(x)+ϵb = f(x) + \epsilon ある種の回帰モデルを使用し、を推定できます。これは私にを与えます。次に見積もることができましたBaaab^b^\hat b b^= f(x )+ ϵb^=f(x)+ϵ\hat b = f(x) + \epsilon 最初の問題:回帰モデルが予測するにつながる可能性があるは何の意味も持たないだろうという負、。これを回避する方法はわかりません(私がよく扱った種類の問題ではありません)。他の人が日常的に扱っているようなもののようです。なんらかの非ガウスGLM?Baaab^b^\hat b 主な問題は、推定から生じるメインモデルの不確実性をどのように説明するかです。欠けている共変量に対して以前に複数の代入を使用しました。しかし、これは「潜在的なパラメーター」が欠けているものです。代わりに、それは結果データであり、代入するのは問題ないようです。ただし、「潜在的な」パラメーターに使用されるEMについてよく耳にします。なぜかはわかりませんが、EMがこれらのコンテキストで優れているかどうかもわかりません。MIは、理解、実装、およびコミュニケーションの両方で直感的です。EMは直感的に理解できますが、実装するのがより難しいように見えます(私はそれを行っていません)。 b^b^\hat b 私が上で得た種類の問題に対してEMは優れていますか?もしそうなら、なぜですか?次に、線形モデルまたはセミパラメトリック(GAM)モデルのRでそれをどのように実装しますか?

2
ランダムフォレストの補完
ランダムフォレスト(特にRのrandomForest)を(予測子空間で)欠損値補完に使用することについて、2つの質問があります。 1)代入アルゴリズムはどのように機能しますか?特に、代入にクラスラベルがどのようにそしてなぜ必要なのですか?クラスごとに定義された欠損値を補完するために平均値に重みを付ける役割を果たす近接行列は何ですか? 2)欠損値を補完するためにクラスラベルが必要な場合-これを使用して、予測しようとしている新しいデータの欠損値を補完する方法を教えてください。

2
Rの2因子反復測定ANOVA後の事後検定?
Rで2因子(両方とも被験者内)のANOVAを繰り返し測定した後、事後テスト(Tukey HSD)を実行する方法に関する解決策を見つけるのに問題があります。ANOVAには、aov -functionを使用しました。 summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) 他の質問への回答を読んだ後、他の機能(lmeなど)を使用してANOVAを再実行する必要があることを知りました。これが私が思いついたものです。 Lme.mod <- lme(dv ~ x1*x2, random=list(subject=pdBlocked(list(~1, pdIdent(~x1-1), pdIdent(~x2-1)))), data=df1) anova(Lme.mod) 主な効果はどちらも有意でしたが、相互作用の効果はありませんでした。次に、これらの関数を事後比較に使用しました。 summary(glht(Lme.mod, linfct=mcp(x1="Tukey"))) summary(glht(Lme.mod, linfct=mcp(x2="Tukey"))) しかし、いくつかの問題がありました: まず、Rヘルプファイルには、「双方向ANOVAまたはANCOVAモデル(...)multcompバージョン1.0-0以降で対象のパラメーターを定義する場合、mcp関数は注意して使用する必要があります。主な効果の比較が生成されます。のみ、共変量と交互作用を無視します(古いバージョンは交互作用項で自動的に平均化されました)警告が表示されます。そして確かに、私は次の警告メッセージを受け取りました: Warning message: In mcp2matrix(model, linfct = linfct) : covariate interactions found -- default contrast might be inappropriate もう1つの不可解な点は、両方の主要な効果は有意でしたが、要因の1つ(x1)の事後比較に有意差はなかったということです。これに出会ったことはありません。スクリプト/分析は正しい/適切ですか、それとも欠けているものはありますか?どんな助けでも大歓迎です!

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。


1
ラグ変数からの情報損失を減らす方法は?
分散ラグモデルを使用して時系列データを分析しています。調査期間は18年で、観測は年次データです。1年のラグ効果を含めると、ラグ変数の最初の年が欠落します。次に、2年のラグ効果により、ラグ変数の最初の2つのデータが欠落します。 私の研究では5つのラグ効果を分析するつもりですが、5つのラグ変数が5つの欠損データを引き起こしました。複数の代入がこれらのラグ変数での情報の損失を克服するのに役立つと思いますが、代入の結果は合理的ではありません。 欠けているデータをラグ変数に代入するより良いアイデアはありますか?

1
ギャップが大きい(データが欠落している)場合に使用する必要がある相関測定はどれですか?
私は年齢(6〜90歳)と声の大きさ(dB)を関連付けようとしています。ただし、私のデータには、20〜50年の範囲のデータポイントが含まれていません。 このようなかなりのギャップがある場合、どの相関測定が最も適切ですか。なぜですか。今までKendall Tauを使ってきました。 ここでは、バイモーダルに分散されたデータは扱っていませんが、年齢範囲のデータギャップが大幅に不足していることに注意してください。

2
欠落率と多重代入
複数の補完(MI)を使用する場合に最低限許容される制限はありますか? たとえば、変数の欠損値がケースの20%であり、他の変数の欠損値はあるがそれほど高いレベルではない場合、MIを使用できますか?


1
機械学習と欠落データ:インピュート、そうであればいつ?
私は通常、物事の効果推定/因果推論の側面に重点を置いています。そこでは、データが欠落している場合の複数の代入にかなり慣れていますが、今は機械学習の側面にあるプロジェクトに取り組んでいます。 我々は持っている期待しているいくつかのそれは現実世界の医療データ、常にいますので、データの欠落を。 一部の協力者の傾向は、完全なデータを持つ被験者のみが使用される完全なケースタイプ分析を使用することですが、これらの欠落したデータパターンが影響を与える可能性があると感じるため、これは少し緊張します。 機械学習タスクの「ベストプラクティス」は、何らかの形の代入を使用することですか?もしそうなら、これは特徴選択の前に行われるべきですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.