タグ付けされた質問 「missing-data」

データに情報(ギャップ)の欠如が存在する場合、つまり、完全でない場合 したがって、分析やテストを実行する際には、この機能を考慮することが重要です。

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
異常検出の欠損値を含む時系列のSTL
私は、時系列の気候データから異常値を検出しようとしていますが、いくつかの観測値が欠落しています。Webを検索すると、利用可能な多くのアプローチが見つかりました。これらのうち、トレンドおよび季節成分を除去し、残りを調査するという意味で、stl分解は魅力的であるように思われます。STLの読み取り:黄土に基づく季節トレンド分解手順はstl、外れ値の影響を受けず、値が欠落していても適用できる変動性の割り当て設定を柔軟に決定できるようです。しかし、R4年の観察でそれを適用しようとし、http://stat.ethz.ch/R-manual/R-patched/library/stats/html/stl.htmlに従ってすべてのパラメータを定義すると、私は遭遇しますエラー: "time series contains internal NAs"(when na.action=na.omit)、および "series is not periodic or has less than two periods"(when na.action=na.exclude)。 周波数が正しく定義されていることを再確認しました。ブログで関連する質問を見てきましたが、これを解決できる提案は見つかりませんでした。stl欠損値があるシリーズに適用することはできませんか?アーティファクトを導入する(および結果として検出する)ことは望ましくないため、それらを補間することは非常に嫌です。同じ理由で、代わりにARIMAアプローチを使用することがいかに望ましいかはわかりません(値の欠落が依然として問題になる場合)。 stl欠損値のあるシリーズに適用する方法を知っている場合、私の選択が方法論的に適切でないと思われる場合、またはより良い提案がある場合は共有してください。私はこの分野ではかなり新しく、関連情報の山(一見...)に圧倒されています。

2
単一変数内の欠落データの80%
データに1つの変数があり、80%のデータが欠落しています。存在しないためにデータが欠落しています(つまり、会社が借りている銀行ローンの量)。ダミー変数の調整方法がこの問題の解決策であるという記事に出会いました。この連続変数をカテゴリカルに変換する必要があるという意味ですか? これが唯一の解決策ですか?理論的にはこの変数を削除したくありません。これは私の研究の質問にとって重要です。 ありがとう。

3
不完全/欠落データを処理するためのテクニック
私の質問は、分類器/モデルのトレーニング/フィッティング中に不完全なデータを処理する手法に関するものです。 たとえば、数百行のデータセットでは、各行が5つのディメンションと最後のアイテムとしてクラスラベルを持っているとすると、ほとんどのデータポイントは次のようになります。 [0.74、0.39、0.14、0.33、0.34、0] いくつかは次のようになります。 [0.21、0.68、?、0.82、0.58、1] したがって、この質問の焦点はこれらの種類のデータポイントです。 この質問をする最初の理由は、目の前の問題でした。しかし、質問を投稿する前に、コミュニティのより大きな部分に回答が役立つように、言い換える方が便利だと思いました。 単純なヒューリスティックとして、これらのデータ処理手法を、処理フロー中にそれらが採用されるタイミングに基づいて分類しましょう。分類器への入力前または処理中です(つまり、手法は分類器内にあります)。 後者について考えられる最良の例は、ディシジョンツリーで使用される巧妙な「3方向分岐」技術です。 間違いなく、前者のカテゴリははるかに大きいです。私が知っているテクニックはすべて、以下のグループのいずれかに分類されます。 最近、「データ処理の欠落」に関する個人的なメモを確認していると、かなり印象的なテクニックのリストがあることに気付きました。一般的な安心のためにこれらのメモを保持しているだけで、後輩の同僚から欠落データの処理方法を尋ねられた場合に備えて。実際には、最後の1つを除いて、実際には使用しません。 代入:欠落したデータが推定/予測ではなく置換である同じデータセットによって直接供給されることを共通の特徴とする一連の手法の広範なルーブリック。 再構成:自動連想ネットワーク(入力層と出力層のサイズが等しいニューラルネットワーク、つまり、出力が入力と同じ次元を持つ)を使用して、欠落しているデータポイントを推定します。ここでのアイデアは、このネットワークを完全なデータでトレーニングし、不完全なパターンを送り、出力ノードから欠損値を読み取ることです。 ブートストラップ:(要約は必要ありません、統計分析の他の場所で使用されているので、考えてはいけません)。 拒否:トレーニングセットから欠落または破損した要素のあるデータポイントを静かに削除し、存在しないふりをします。

3
相関行列を計算するときに欠損値のある観測を削除することで深刻な問題はありますか?
2500の変数と142の観測値のような巨大なデータセットがあります。 変数Xと残りの変数の間の相関関係を実行したいと思います。しかし、多くの列では、エントリが不足しています。 「ペアワイズ完全」引数(use=pairwise.complete.obs)を使用してRでこれを実行しようとすると、一連の相関が出力されました。しかし、StackOverflowの誰かがこの記事http://bwlewis.github.io/covar/missing.htmlへのリンクを投稿したため、Rの「pairwise-complete」メソッドが使用できなくなっています。 私の質問:「ペアワイズコンプリート」オプションを使用するのが適切な場合はどうすればわかりますか? 私がuse = complete.obs戻ってきたno complete element pairsので、それが何を意味するのかを説明できれば、それは素晴らしいことです。

3
glmnetを使用して収縮(なげなわ)メソッドでNA値を処理する方法
GWASの投げ縄回帰に「glmnet」を使用しています。一部のバリアントと個人には欠損値があり、glmnetは欠損値を処理できないようです。 これに対する解決策はありますか?または、投げ縄回帰で欠損値を処理できる他のパッケージはありますか? これが私のスクリプトです。 > library(glmnet) > geno6<-read.table("c6sigCnt.geno") > geno6[1:10,1:10] #genotype file (0,1,2 for minor allele counts) V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 1 1 1 1 1 1 1 1 1 1 0 2 NA NA 1 1 1 1 1 1 1 1 3 0 …

3
存在しないデータや欠落しているデータをどのように処理しますか?
予測方法を試しましたが、自分の方法が正しいかどうかを確認したいと思います。 私の研究は、さまざまな種類の投資信託を比較することです。GCCインデックスをそのうちの1つのベンチマークとして使用したいのですが、問題は2011年9月にGCCインデックスが停止し、私の研究は2003年1月から2014年7月までであるということです。線形回帰を作成しますが、問題は、MSCIインデックスに2010年9月のデータが欠落していることです。 これを回避するために、私は次のことを行いました。これらの手順は有効ですか? MSCIインデックスには2010年9月から2012年7月までのデータがありません。5つの観測値に移動平均を適用することで、「提供」しました。このアプローチは有効ですか?その場合、いくつの観測を使用する必要がありますか? 欠落データを推定した後、相互に利用可能な期間(2007年1月から2011年9月)のGCCインデックス(従属変数として)とMSCIインデックス(独立変数として)で回帰を実行し、すべての問題からモデルを修正しました。毎月、xを残りの期間のMSCIインデックスのデータで置き換えます。これは有効ですか? 以下は、行ごとに年、列ごとに月を含む、カンマ区切り値形式のデータです。データはこのリンクからも入手できます 。 シリーズGCC: ,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec 2002,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,117.709 2003,120.176,117.983,120.913,134.036,145.829,143.108,149.712,156.997,162.158,158.526,166.42,180.306 2004,185.367,185.604,200.433,218.923,226.493,230.492,249.953,262.295,275.088,295.005,328.197,336.817 2005,346.721,363.919,423.232,492.508,519.074,605.804,581.975,676.021,692.077,761.837,863.65,844.865 2006,947.402,993.004,909.894,732.646,598.877,686.258,634.835,658.295,672.233,677.234,491.163,488.911 2007,440.237,486.828,456.164,452.141,495.19,473.926,492.782,525.295,519.081,575.744,599.984,668.192 2008,626.203,681.292,616.841,676.242,657.467,654.66,635.478,603.639,527.326,396.904,338.696,308.085 2009,279.706,252.054,272.082,314.367,340.354,325.99,326.46,327.053,354.192,339.035,329.668,318.267 2010,309.847,321.98,345.594,335.045,311.363,299.555,310.802,306.523,315.496,324.153,323.256,334.802 2011,331.133,311.292,323.08,327.105,320.258,312.749,305.073,297.087,298.671,NA,NA,NA MSCIシリーズ: ,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec 2007,NA,NA,NA,NA,1000,958.645,1016.085,1049.468,1033.775,1118.854,1142.347,1298.223 2008,1197.656,1282.557,1164.874,1248.42,1227.061,1221.049,1161.246,1112.582,929.379,680.086,516.511,521.127 2009,487.562,450.331,478.255,560.667,605.143,598.611,609.559,615.73,662.891,655.639,628.404,602.14 2010,601.1,622.624,661.875,644.751,588.526,587.4,615.008,606.133,NA,NA,NA,NA 2011,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA 2012,NA,NA,NA,NA,NA,NA,NA,609.51,598.428,595.622,582.905,599.447 2013,627.561,619.581,636.284,632.099,651.995,651.39,687.194,676.76,694.575,704.806,727.625,739.842 2014,759.036,787.057,817.067,824.313,857.055,805.31,873.619,NA,NA,NA,NA,NA

2
存在しない(欠落していない)データを処理する方法は?
分類器への入力として「存在しない」データを処理する方法について、良いテキストや例を実際に見つけたことはありません。欠落しているデータについてたくさん読んだことがありますが、多変量入力に関連して存在できない、または存在しないデータについて何ができるでしょうか。これは非常に複雑な質問であり、使用するトレーニング方法によって異なります... たとえば、正確なデータを使用して複数のランナーのラップタイムを予測しようとする場合。多くの入力の中で、多くの中で可能な変数は次のとおりです。 入力変数-初回ランナー(Y / N) 入力変数-前回のラップタイム(0〜500秒) 入力変数-年齢 入力変数-高さ。。。より多くの入力変数など &出力予測-予測ラップタイム(0〜500秒) 「2.Previous laptime」の「欠落変数」は、「1。初めてのランナー」は常にNに等しくなります。しかし、初めてのランナー(「1.初めてのランナー」= Y)の「非存在データ」の場合、「2。前のラップタイム '? たとえば、 '2。-99または0としての以前のlaptime 'は、分布を劇的に歪め、新しいランナーがうまく機能しているように見せることができます。 私の現在のトレーニング方法は、ロジスティック回帰、SVM、NN&ディシジョンツリーを使用しています

2
誰かがイメージを好きになる確率
次の問題があります。 -N人の セット-K画像のセット -各人がいくつかの画像を評価します。人は画像が好きでも好まなくてもかまいません(これらは唯一の2つの可能性です)。-問題は、特定の画像が好きな人がいる可能性を計算する方法です。 私の直感を示す例を挙げます。 N = 4 K = 5 +は、画像が好きであることを意味します - 画像が好きではない ことを意味します0は、画像について質問されていないことを意味し、その値は予測されます x 1 2 3 4 5 1 + - 0 0 + 2 + - + 0 + 3 - - + + 0 4 - 0 - - - 人物1はおそらく画像3が好きで、人物2は好みが似ており、人物2は画像3が好きです。 人物4はおそらく画像2が好きではないでしょう。 そのような可能性を計算するために使用できるよく知られた方法はありますか?

1
XGBoostは予測フェーズで欠落データを処理できます
最近、XGBoostアルゴリズムを確認しましたが、このアルゴリズムは、トレーニングフェーズで欠落データを(補完を必要とせずに)処理できることに気付きました。XGboostが新しい観測値の予測に使用される場合、または欠損データを補完する必要がある場合、XGboostが欠損データを(補完を必要とせずに)処理できるかどうか疑問に思っていました。 前もって感謝します。

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
マウスで2l.normを使用した「1次の先行マイナーは正定ではない」エラー
2l.normのマルチレベル代入の方法を使用して問題が発生していmiceます。 残念ながら、データのサイズが原因で再現可能な例を投稿することはできません。サイズを小さくすると、問題は消えます。 特定の変数について、mice次のエラーと警告を生成します。 Error in chol.default(inv.sigma2[class] * X.SS[[class]] + inv.psi) : the leading minor of order 1 is not positive definite In addition: Warning messages: 1: In rgamma(n.class, n.g/2 + 1/(2 * theta), scale = 2 * theta/(ss * : NAs produced 2: In rgamma(1, n.class/(2 * theta) + 1, …

2
精度に基づく(つまり、逆分散)重み付けはメタ分析に不可欠ですか?
精度ベースの重み付けはメタ分析の中心ですか?ボレンシュタイン等。(2009)メタ分析を可能にするために必要なことはすべて以下のとおりです: 研究では、単一の数値として表現できる点推定を報告しています。 そのポイント推定に対して分散を計算できます。 (2)が厳密に必要な理由はすぐにはわかりません。しかし、実際、広く受け入れられているメタ分析の方法はすべて、精度に基づく(つまり、逆分散)重み付けスキームに依存しており、各研究の効果サイズの分散の推定が必要です。ヘッジの方法(Hedges&Olkin、1985; Hedges&Vevea、1998)とハンターとシュミットの方法(Hunter&Schmidt、2004)はどちらも基本的にサンプルサイズの重み付けを使用していますが、これらの方法は正規化された平均差にのみ適用されるため、他の場所の標準偏差。各研究の分散に反比例する重みが全体的な効果サイズ推定器の分散を最小化することは理にかなっているので、この重み付けスキームはすべての方法の必須の機能ですか? 各効果サイズの分散にアクセスせずに系統的レビューを実施し、その結果をメタ分析と呼ぶことは可能ですか?サンプルサイズは、分散が利用できない場合の精度のプロキシとしての可能性があるようです。たとえば、効果サイズが生の平均差として定義された研究でサンプルサイズの重み付けを使用できますか?結果の平均効果サイズの一貫性と効率にどのように影響しますか?

3
回帰で複数のモデルを構築することに対する補完の利点は何ですか?
データが欠落しているケースの異なるモデルを単に構築するよりも、欠落しているデータの補完がなぜ優れているかについて誰かが何らかの洞察を提供できるかどうか疑問に思います。特に[一般化された]線形モデルの場合(非線形のケースでは状況が異なることがわかります) 基本的な線形モデルがあるとします。 Y=β1X1+β2X2+β3X3+ϵY=β1X1+β2X2+β3X3+ϵ Y = \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon しかし、データセットには欠落しているいくつかのレコードが含まれています。モデルが使用される予測データセットでは、X 3が欠落している場合もあります。続行するには2つの方法があるようです。X3X3X_3X3X3X_3 複数のモデル 私たちは、にデータを分割することができおよび非X 3ケースとそれぞれに別々のモデルを構築します。X 3がX 2と密接に関連していると仮定すると、欠落データモデルはX 2をオーバーウェイトして、最良の2予測子予測を得ることができます。また、欠落データのケースがわずかに異なる場合(欠落データメカニズムのため)、その違いを組み込むことができます。マイナス面としては、2つのモデルはそれぞれデータの一部のみに適合しており、互いに「助け合っている」わけではないため、限られたデータセットでは適合性が低くなる可能性があります。X3X3X_3X3X3X_3X3X3X_3X2X2X_2X2X2X_2 インピュテーション X3X3X_3X1X1X_1X2X2X_2X1X1X_1 編集: これまでのSteffanの回答は、補完されたデータに完全なケースモデルを当てはめると完全なデータを当てはめるよりも優れていることを説明していますが、その逆が真実であることは明らかであるように見えますが、欠けているデータの予測についてはまだ誤解があります。 X2=X3+ηX2=X3+ηX_2 = X_3+\etaX2X2X_2β2=0β2=0\beta_2 = 0X3X3X_3X3X3X_3 (X1,X2)(X1,X2)(X_1, X_2)(X1,X2,X3)(X1,X2,X3)(X_1, X_2, X_3) X3X3X_3

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.