タグ付けされた質問 「missing-data」

データに情報(ギャップ)の欠如が存在する場合、つまり、完全でない場合 したがって、分析やテストを実行する際には、この機能を考慮することが重要です。

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


3
複数の代入後の傾向スコアのマッチング
私はこの論文を参照します:Hayes JR、Groner JI。 「複数の代入および傾向スコアを使用して、外傷登録データからの損傷の重症度に対するカーシートおよびシートベルト使用の影響をテストします。」 J Pediatr Surg。2008 5月; 43(5):924-7。 この研究では、15の完全なデータセットを取得するために複数の代入が実行されました。次に、各データセットの傾向スコアが計算されました。次に、各観測単位について、完成した15個のデータセット(関連する傾向スコアを含む)の1つからレコードがランダムに選択され、傾向スコアマッチングによって分析される単一の最終データセットが作成されました。 私の質問は次のとおりです。これは、複数の代入に続く傾向スコアのマッチングを実行する有効な方法ですか?それを行う別の方法はありますか? コンテキスト:私の新しいプロジェクトでは、傾向スコアマッチングを使用して2つの治療法の効果を比較することを目指しています。欠損データがありMICEます。R のパッケージを使用して欠損値を代入twangし、傾向スコアのマッチングを行い、マッチングlme4したデータを分析します。 アップデート1: 異なるアプローチをとるこの論文を見つけました。Mitra、Robin and Reiter、Jerome P.(2011)反復シーケンシャル多重代入による欠落した共変量との傾向スコアのマッチング[Working Paper] この論文では、著者はすべての帰属データセットの傾向スコアを計算し、平均化によってそれらをプールします。これは、ポイント推定にルービンのルールを使用した多重帰属の精神に基づいていますが、傾向スコアには本当に適用可能ですか? これらの2つの異なるアプローチ、および/または他のアプローチについてのコメントをCVの誰かが提供できれば、本当に素晴らしいでしょう。


3
Rはlmの欠損値をどのように処理しますか?
行列Aの各列に対してベクトルBを回帰させたいと思います。欠損データがない場合、これは簡単ですが、行列Aに欠損値が含まれている場合、Aに対する回帰はすべての行のみを含むように制限されます値が存在します(デフォルトのna.omit動作)。これにより、欠落データのない列に対して誤った結果が生成されます。列行列Bを行列Aの個々の列に対して回帰することはできますが、何千回も回帰を行う必要があり、これは非常に遅く、洗練されていません。na.exclude機能は、このような場合のために設計されているように見えるが、私はそれを動作させることはできません。ここで何が間違っていますか?重要な場合、OSXでR 2.13を使用します。 A = matrix(1:20, nrow=10, ncol=2) B = matrix(1:10, nrow=10, ncol=1) dim(lm(A~B)$residuals) # [1] 10 2 (the expected 10 residual values) # Missing value in first column; now we have 9 residuals A[1,1] = NA dim(lm(A~B)$residuals) #[1] 9 2 (the expected 9 residuals, given na.omit() is the default) # …

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

3
RキャレットとNA
パラメーターの調整機能と統一されたインターフェイスは非常に気に入っていますが、適用された "裸の"モデルでNAが許可されていても、常に完全なデータセット(つまりNAなし)が必要です。そもそも必要ではない面倒な代入法を適用する必要があるという点で、これは非常に面倒です。代入を回避し、キャレットの利点をどのように使用できますか?

5
欠落データを処理する機械学習アルゴリズム
私は、検査値を含む高次元の臨床データを使用して予測モデルを開発しようとしています。データ空間は、5kサンプルと200変数でまばらです。アイデアは、機能選択方法(IG、RFなど)を使用して変数をランク付けし、予測モデルの開発にトップランクの機能を使用することです。 素朴なベイズのアプローチでは機能の選択はうまくいきますが、変数空間のデータが欠落している(NA)ために予測モデルの実装で問題に直面しています。欠落データのあるサンプルを慎重に処理できる機械学習アルゴリズムはありますか?

2
期待値最大化アルゴリズムがローカル最適に収束することが保証されているのはなぜですか?
EMアルゴリズムの説明をいくつか読みました(たとえば、Bishopのパターン認識と機械学習、および機械学習に関するロジャーとジェロラミの最初のコースから)。EMの派生は大丈夫です、私はそれを理解しています。また、アルゴリズムが何かをカバーする理由も理解しています:各ステップで結果を改善し、尤度は1.0で制限されているため、単純な事実(関数が増加し、制限される場合は収束する)を使用することで、アルゴリズムが収束することがわかりますいくつかの解決策。 しかし、それがローカルミニマムであることをどのように知るのでしょうか?各ステップでは、1つの座標(潜在変数またはパラメーター)のみを検討しているため、ローカルミニマムでは両方の座標を同時に移動する必要があるなど、何かを見逃す可能性があります。 これは、EMのインスタンスである一般的なクラスの山登りアルゴリズムと同様の問題だと思います。したがって、一般的な山登りアルゴリズムでは、関数f(x、y)= x * yに対してこの問題があります。(0、0)ポイントから開始する場合、両方の方向を一度に考慮することによってのみ、0の値から上に移動できます。

4
ワイブル分布のEM最尤推定
注: 私は、技術的な理由で自分で投稿できない元学生の質問を投稿しています。 pdfを持つワイブル分布からの iidサンプル与えられた場合、 は有用な欠損変数表現 、したがって、直接的な方法を使用する代わりにのMLEを見つけるために使用できる関連EM(期待値最大化)アルゴリズム数値最適化?バツ1、… 、xnバツ1、…、バツnx_1,\ldots,x_nfk(x )= k xk − 1e− xkx > 0fk(バツ)=kバツk−1e−バツkバツ>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 fk(x )= ∫Zgk(x 、z)d zfk(バツ)=∫Zgk(バツ、z)dzf_k(x) = \int_\mathcal{Z} g_k(x,z)\,\text{d}zkkk

4
PCAの欠損値の代入
prcomp()RでPCA(主成分分析)を実行するためにこの関数を使用しました。ただし、その関数にはバグがあり、na.actionパラメーターが機能しません。私はstackoverflowの助けを求めました。そこで2人のユーザーが、NA値を処理する2つの異なる方法を提供しました。ただし、両方のソリューションの問題は、NA値がある場合、その行が削除され、PCA分析で考慮されないことです。私の実際のデータセットは100 x 100のマトリックスであり、単一のNA値が含まれているという理由だけで行全体を失いたくありません。 次の例はprcomp()、NA値が含まれているため、関数が行5の主成分を返さないことを示しています。 d <- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), V3 = sample(1:100, 10)) result <- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit) result$x # $ d$V1[5] <- NA # $ result <- prcomp(~V1+V2, data=d, center = TRUE, scale = TRUE, na.action = …


5
データがランダムに欠落しているかどうかを判断する統計的アプローチ
バイナリ分類問題を攻撃するために使用する機能ベクトルの大きなセットがあります(Pythonでscikitを使用して)。代入について考える前に、データの残りの部分から、欠落しているデータが「ランダムに欠落している」か、ランダムに欠落していないかを判断することに興味があります。 この質問にアプローチする賢明な方法は何ですか? より良い質問は、データが「ランダムに完全に欠落している」かどうかを尋ねることです。それを行う賢明な方法は何ですか?

2
複数の代入後に事後平均と信頼できる間隔をプールするにはどうすればよいですか?
複数の補完を使用して、いくつかの完成したデータセットを取得しました。 完成した各データセットでベイズ法を使用して、パラメーターの事後分布を取得しました(ランダム効果)。 このパラメーターの結果を結合/プールするにはどうすればよいですか? より多くのコンテキスト: 私のモデルは、学校に集まっている個々の生徒(生徒ごとに1つの観察)の意味で階層的です。欠損データの予測子の1つとしてMICEデータに複数の代入(R を使用)を行いschool、データ階層を代入に組み込むことを試みました。 完成した各データセットに単純なランダム勾配モデルを適合させました(MCMCglmmRで使用)。結果はバイナリです。 ランダムスロープ分散の事後密度は、次のように見えるという意味で「適切に動作する」ことがわかりました。 このランダム効果のために、各帰属データセットから事後平均と信頼区間をどのように結合/プールできますか? Update1: 私がこれまでに理解していることから、ルービンのルールを事後平均に適用して、多重補完事後平均を与えることができます。これを行うのに問題はありますか?しかし、95%の信頼できる間隔をどのように組み合わせることができるかわかりません。また、代入ごとに実際の事後密度サンプルがあるので、どうにかしてこれらを結合できますか? Update2: コメントでの@cyanの提案に従って、複数の代入からの完全な各データセットから取得した事後分布のサンプルを単純に結合するというアイデアに非常に似ています。ただし、これを行うための理論的な正当性を知りたいです。

1
機械学習アルゴリズムの欠損データとスパースデータの違い
スパースデータと欠落データの主な違いは何ですか?そして、それは機械学習にどのように影響しますか?より具体的には、スパースデータと欠損データが分類アルゴリズムおよび回帰(予測数)タイプのアルゴリズムに与える影響。欠落しているデータの割合が重要であり、欠落しているデータを含む行を削除できない状況について話しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.