タグ付けされた質問 「data-imputation」

不足しているデータを「埋める」ために使用されるメソッドの一般的なクラスを指します。これを行うために使用される方法は、通常、内挿(http://en.wikipedia.org/wiki/Interpolation)に関連しており、データが欠落している理由(たとえば、「ランダムに欠落している」)に関する仮定が必要です。

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
RキャレットとNA
パラメーターの調整機能と統一されたインターフェイスは非常に気に入っていますが、適用された "裸の"モデルでNAが許可されていても、常に完全なデータセット(つまりNAなし)が必要です。そもそも必要ではない面倒な代入法を適用する必要があるという点で、これは非常に面倒です。代入を回避し、キャレットの利点をどのように使用できますか?

4
PCAの欠損値の代入
prcomp()RでPCA(主成分分析)を実行するためにこの関数を使用しました。ただし、その関数にはバグがあり、na.actionパラメーターが機能しません。私はstackoverflowの助けを求めました。そこで2人のユーザーが、NA値を処理する2つの異なる方法を提供しました。ただし、両方のソリューションの問題は、NA値がある場合、その行が削除され、PCA分析で考慮されないことです。私の実際のデータセットは100 x 100のマトリックスであり、単一のNA値が含まれているという理由だけで行全体を失いたくありません。 次の例はprcomp()、NA値が含まれているため、関数が行5の主成分を返さないことを示しています。 d <- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), V3 = sample(1:100, 10)) result <- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit) result$x # $ d$V1[5] <- NA # $ result <- prcomp(~V1+V2, data=d, center = TRUE, scale = TRUE, na.action = …

3
複数の代入を使用する場合、混合効果モデルの分散コンポーネントの信頼区間を組み合わせる方法
多重代入(MI)のロジックは、欠損値を1回ではなく数回(通常はM = 5)回代入し、M個のデータセットを完成させることです。次に、M個の完成したデータセットをcomplete-dataメソッドで分析し、Rubinの式を使用してMの推定値とその標準誤差を組み合わせて、「全体的な」推定値とその標準誤差を取得します。 これまでのところ素晴らしいが、混合効果モデルの分散コンポーネントが関係する場合、このレシピをどのように適用するかわからない。分散成分のサンプリング分布は非対称です。したがって、対応する信頼区間は、典型的な「推定値±1.96 * se(推定値)」形式で与えることはできません。このため、Rパッケージlme4およびnlmeは、分散成分の標準誤差さえも提供せず、信頼区間のみを提供します。 したがって、データセットに対してMIを実行し、M個の完成したデータセットに同じ混合効果モデルを適合させた後、分散コンポーネントごとにM個の信頼区間を取得できます。問題は、これらのM区間を1つの「全体的な」信頼区間に結合する方法です。 これは可能だと思います-記事の著者(yucel&demirtas(2010)MIによる推論に対する非正規ランダム効果の影響)はそれをやったようですが、彼らはどのように正確に説明していないのでしょうか。 どんなヒントも大いに義務付けられます! 乾杯、ロック

5
6番目の回答オプション(「わからない」)が5ポイントのリッカート尺度に追加されました。データが失われましたか?
アンケートのデータを回収するには、少し助けが必要です。 私の同僚の1人がアンケートを適用しましたが、誤って、元の5ポイントのリッカートスケール(強く同意することに強く反対する)を使用する代わりに、彼はスケールに6番目の回答を挿入しました。そして、事態を悪化させるために、6番目の応答オプションは…「わからない」です。 問題は、ある時点で「わからない」を選んだ回答者の大部分です。それらがかなり少ない割合であれば、データベースからそれらを除外しただけです。ただし、研究の中核は概念モデルに基づいており、非常に多くのレコードを除外すると、モデルに問題が発生します。 誰かが私をここで正しい方向に向けることができますか?「良い習慣」はありますか、または「わからない」応答を使用(変換、変換など)することができますか? また、問題のデータを操作した場合(つまり、「わからない」応答を置換、代入などにより変換した場合)、どのような「免責事項」、「警告」、注釈、使用すべきですか? 私はそれがロングショットであることを知っていますが、応答を救うことに加えて、私はこれらのタイプのケースで合意された慣行(もしあれば)も興味があります。 PS:幼稚に聞こえるかもしれませんが、いいえ、「同僚」は私ではありません:)

2
時系列で欠落データを埋める方法は?
私は2年間にわたって10分ごとに記録された汚染データの大規模なセットを持っていますが、データにはいくつかのギャップがあります(一度に数週間続くものを含む)。 データは非常に季節性があるようで、値に大きな変化がなく、データポイントが低い夜と比較して、日中は大きな変動があります。 私は黄土モデルを昼と夜のサブセットに別々に適合させ(それらの間に明らかな違いがあるため)、欠損データの値を予測し、これらのポイントを埋めることを検討しました。 これがこの問題に対処する適切な方法であるかどうか、また予測されたポイントに局所的な変動を追加する必要があるかどうかは疑問でした。

1
複数の代入後のキャリブレーションプロットのプーリング
複数の代入後のキャリブレーションプロット/統計のプーリングに関するアドバイスをお願いします。将来のイベントを予測するために統計モデルを開発する設定では(たとえば、病院の記録からのデータを使用して退院後の生存やイベントを予測する)、多くの情報が欠落していることが想像できます。複数の代入はそのような状況を処理する方法ですが、結果として、代入の固有の不確実性による追加の変動性を考慮して、各代入データセットからのテスト統計をプールする必要があります。 複数のキャリブレーション統計(hosmer-lemeshow、HarrellのEmax、推定キャリブレーションインデックスなど)があることを理解しています。プーリングに関する「通常の」Rubinのルールが適用される可能性があります。 ただし、これらの統計は多くの場合、モデルの特定のミスキャリブレーション領域を示さないキャリブレーションの全体的な測定値です。この理由から、私はむしろ較正プロットを見たいと思います。残念ながら、プロットまたはそれらの背後にあるデータ(個人ごとの予測確率と個人ごとの観測結果)を「プール」する方法については無知であり、生物医学文献(私がよく知っている分野)にはあまり見つけることができません、または、ここで、CrossValidatedで。もちろん、各代入データセットのキャリブレーションプロットを見ることは答えかもしれませんが、多くの代入セットが作成されると、非常に面倒になる可能性があります。 したがって、複数の代入(?)後にプールされたキャリブレーションプロットをもたらす手法があるかどうかを尋ねたいと思います

3
機械学習で欠落データの問題を回避する方法
機械学習アルゴリズムを使用して予測したい事実上のデータベースは、いくつかの特性の欠損値を見つけます。 この問題に対処するには、欠損値を持つ行を特性の平均値で埋めるまで除外するいくつかのアプローチがあります。 私はやや堅牢なアプローチに使用したいと思います。これは基本的に回帰(または別の方法)を実行し、従属変数(Y)は欠損値を持つ各列ですが、テーブルの行のみであるすべてのデータを含み、このメソッドで欠損値を予測し、テーブルごとにテーブルを完成させ、欠損値のある次の「列」に移動し、すべてが満たされるまでメソッドを繰り返します。 しかし、それは私にいくつかの疑問を与えます。 なぜ列が始まるのですか?欠損値が最小のものは、最大値を持つものまで 完了しようとする価値のない欠損値のしきい値はありますか?(たとえば、この特性が満たされている値の10%しか持っていない場合、それを除外することはもっと面白くないでしょう) 従来のパッケージや、欠落に強い他の方法での実装の種類はありますか?

5
KNN代入Rパッケージ
KNN補完パッケージを探しています。私は代入パッケージ(http://cran.r-project.org/web/packages/imputation/imputation.pdf)を見てきましたが、何らかの理由でKNN代入関数は(説明の例に続いても) (以下のように)ゼロ値を代入します。私は周りを見回しましたが、まだ何かを見つけることができません。したがって、他の誰かが良いKNN代入パッケージについて他の提案を持っているのではないかと思っていましたか? W 以下のコードでは、NA値はゼロに置き換えられます-Knn平均値ではありません require(imputation) x = matrix(rnorm(100),10,10) x.missing = x > 1 x[x.missing] = NA kNNImpute(x, 3) x

2
入力データの近傍情報の使用またはオフデータの検索(R)
最近傍が最適な予測子であるという仮定のデータセットがあります。視覚化された双方向グラデーションの完璧な例 欠落している値がほとんどない場合があると仮定すると、近傍と傾向に基づいて簡単に予測できます。 Rの対応するデータマトリックス(トレーニングのダミーの例): miss.mat <- matrix (c(5:11, 6:10, NA,12, 7:13, 8:14, 9:12, NA, 14:15, 10:16),ncol=7, byrow = TRUE) miss.mat [,1] [,2] [,3] [,4] [,5] [,6] [,7] [1,] 5 6 7 8 9 10 11 [2,] 6 7 8 9 10 NA 12 [3,] 7 8 9 10 11 12 13 …

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


1
XGBoostは予測フェーズで欠落データを処理できます
最近、XGBoostアルゴリズムを確認しましたが、このアルゴリズムは、トレーニングフェーズで欠落データを(補完を必要とせずに)処理できることに気付きました。XGboostが新しい観測値の予測に使用される場合、または欠損データを補完する必要がある場合、XGboostが欠損データを(補完を必要とせずに)処理できるかどうか疑問に思っていました。 前もって感謝します。

4
LASSOで機能を選択するためのデータを準備するために欠損値を処理する方法は?
私の状況: 小さなサンプルサイズ:116 バイナリ結果変数 説明変数の長いリスト:44 説明変数は私の頭の上から来ていませんでした。彼らの選択は文献に基づいていた。 サンプルのほとんどの場合とほとんどの変数には欠損値があります。 選択した機能選択へのアプローチ:LASSO Rのglmnetパッケージではglmnetルーチンを実行できません。これは、明らかにデータセットに欠損値が存在するためです。欠落しているデータを処理するにはさまざまな方法があるようですので、知りたいのですが。 LASSOは、使用できる補完の方法に関して何らかの制限を課していますか? 補完法の最善策は何でしょうか?理想的には、SPSS(できれば)またはRで実行できるメソッドが必要です。 UPDATE1:以下の回答のいくつかから、補完法を検討する前に、より基本的な問題に対処していることが明らかになりました。それについてここに新しい質問を追加したいと思います。「該当なし」の値とグループラッソの使用法を処理するための定数値としてのコーディングと新しい変数の作成を示唆する答えについて: グループLASSOを使用すると、連続予測子に提案されたアプローチをカテゴリカル予測子にも使用できると思いますか?もしそうなら、私はそれが新しいカテゴリーを作成することと同等であると思います-これはバイアスを導入するかもしれないと警戒しています。 RのglmnetパッケージがグループLASSOをサポートしているかどうか誰かが知っていますか?そうでない場合、誰かがロジスティック回帰と組み合わせてそれを行う別のものを提案しますか?LASSOグループについて言及しているいくつかのオプションがCRANリポジトリにあります。私の場合に最も適切な提案はありますか?たぶんSGL? これは私の以前の質問に対するフォローアップです(ロジスティック回帰分析を実行するために、元の長いリストから変数のサブセットを選択する方法は?)。 OBS:私は統計学者ではありません。

3
回帰で複数のモデルを構築することに対する補完の利点は何ですか?
データが欠落しているケースの異なるモデルを単に構築するよりも、欠落しているデータの補完がなぜ優れているかについて誰かが何らかの洞察を提供できるかどうか疑問に思います。特に[一般化された]線形モデルの場合(非線形のケースでは状況が異なることがわかります) 基本的な線形モデルがあるとします。 Y=β1X1+β2X2+β3X3+ϵY=β1X1+β2X2+β3X3+ϵ Y = \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon しかし、データセットには欠落しているいくつかのレコードが含まれています。モデルが使用される予測データセットでは、X 3が欠落している場合もあります。続行するには2つの方法があるようです。X3X3X_3X3X3X_3 複数のモデル 私たちは、にデータを分割することができおよび非X 3ケースとそれぞれに別々のモデルを構築します。X 3がX 2と密接に関連していると仮定すると、欠落データモデルはX 2をオーバーウェイトして、最良の2予測子予測を得ることができます。また、欠落データのケースがわずかに異なる場合(欠落データメカニズムのため)、その違いを組み込むことができます。マイナス面としては、2つのモデルはそれぞれデータの一部のみに適合しており、互いに「助け合っている」わけではないため、限られたデータセットでは適合性が低くなる可能性があります。X3X3X_3X3X3X_3X3X3X_3X2X2X_2X2X2X_2 インピュテーション X3X3X_3X1X1X_1X2X2X_2X1X1X_1 編集: これまでのSteffanの回答は、補完されたデータに完全なケースモデルを当てはめると完全なデータを当てはめるよりも優れていることを説明していますが、その逆が真実であることは明らかであるように見えますが、欠けているデータの予測についてはまだ誤解があります。 X2=X3+ηX2=X3+ηX_2 = X_3+\etaX2X2X_2β2=0β2=0\beta_2 = 0X3X3X_3X3X3X_3 (X1,X2)(X1,X2)(X_1, X_2)(X1,X2,X3)(X1,X2,X3)(X_1, X_2, X_3) X3X3X_3

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.