タグ付けされた質問 「missing-data」

データに情報(ギャップ)の欠如が存在する場合、つまり、完全でない場合 したがって、分析やテストを実行する際には、この機能を考慮することが重要です。

1
JAGSの応答変数の欠損値
Gelman&Hill(2006)のコメント: Bugsでは、回帰で欠落した結果は、データベクトル、NAなどを含めるだけで簡単に処理できます。バグは明示的に結果変数をモデル化するため、このモデルを使用して、実際には各反復で欠損値を補完するのは簡単です。 これは、JAGSを使用して予測を行う簡単な方法のように思えます。しかし、結果が欠落している観測は、パラメーター推定にも影響しますか?もしそうなら、これらの観測をJAGSが見るデータセットに保持する簡単な方法はありますか?私はカット機能について考えていましたが、それはJAGSではなくBUGSでのみ利用可能です。

4
2つの相関関係が大幅に異なるかどうかを判断するにはどうすればよいですか?
2つのデータセット(B1、B2)のどちらが別のセット(A)とより適切に相関している(ピアソンr)かを判断します。すべてのデータセットに欠落データがあります。結果の相関が大幅に異なるかどうかをどのように判断できますか? たとえば、8426の値はAとB1の両方に存在し、r = 0.74です。8798はAとB2の両方に存在し、r = 0.72です。 この質問は役立つかもしれないと思いましたが、答えはありません:あるシステムが別のシステムよりもはるかに優れていることを知る方法は?

2
変量効果メタ分析の代替重み付けスキーム:標準偏差の欠落
私は、標準偏差を報告しない多くの研究をカバーする変量効果メタ分析に取り組んでいます。すべての研究はサンプルサイズを報告しています。SDの欠損データを概算または推定することはできないと思います。すべての研究で標準偏差が利用できない場合、生の(非標準化)平均差を効果サイズとして重み付けするメタ分析はどのように重み付けする必要がありますか?もちろん、タウ2乗を推定することもできます。ランダム効果フレームワーク内に留まるために使用する重み付けスキームに、スタディ間の分散の測定値を組み込みたいと思います。 もう少し情報が含まれています: 生の平均値の差が依然として有用である理由:データは、本質的に意味のあるスケール(単位あたりの米ドル)で報告されます。したがって、平均差のメタ分析はすぐに解釈できます。 SDデータを概算または推定できない理由:標準偏差データが欠落している研究には、標準偏差を概算するのに十分なデータが含まれていません(つまり、中央値と範囲が文献で報告されることはありません)。研究の大部分がsdを欠いているため、欠落しているデータを補うことはお勧めできません。これは、研究が対象地域と調査プロトコルの点で大きく異なるためです。 メタアナリシスの生の平均差で通常行われること:研究の重みは、平均差の標準誤差に基づいています(通常、サンプルサイズの項とプールされた分散で計算されます)。これを持っていない。変量効果メタ分析では、研究の重みには、研究間の分散の用語も含まれます。これがあります。 このコンテキストで単純な逆サンプルサイズの重み付けを使用できますか?タウ2乗の推定値(または研究間の分散のその他の測定値)を重み付けにどのように組み込みますか?

2
時間をかけてより詳細な説明変数を組み込む
私は、時間の経過とともに次第に詳細な予測子を取得する変数を最もよくモデル化する方法を理解しようとしています。たとえば、デフォルトのローンの回収率をモデル化することを検討してください。20年分のデータを含むデータセットがあり、それらの年の最初の15年にはローンが担保に入れられたかどうかだけがわかっていて、その担保の特性については何もわからないとします。ただし、過去5年間は、担保をさまざまなカテゴリに分類することができます。これらのカテゴリは、回復率の良い予測因子となることが期待されています。 この設定を前提として、モデルをデータに適合させ、予測子の統計的有意性などの測度を決定し、モデルで予測します。 これはどのミッシングデータフレームワークに適合しますか?履歴サンプル全体に散らばっているのではなく、より詳細な説明変数が特定の時点でのみ使用可能になるという事実に関連する特別な考慮事項はありますか?

1
一部の入力に欠損値がある場合のrandomForest(R)による予測(NA)
randomForest新しいケースのクラスを予測するアプリケーションで使用したい細かい分類モデルがあります。新しいケースには必然的に欠損値があります。NAの場合、Predictはそのようには機能しません。それでは、どうすればよいですか。 data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) case.na<-iris[na.row,] case.na[,na.col]<-NA iris.rf <- randomForest(Species ~ ., data=iris[-na.row,]) # print(iris.rf) myrf.pred <- predict(iris.rf, case.na[-5], type="response") myrf.pred [1] <NA> 試しましたmissForest。元のデータと新しいケースを組み合わせ、それをmissForestでシェイクし、新しいケースでNAの帰属値を得ました。しかし、あまりにも重いコンピューティング。 data.imp <- missForest(data.with.na) しかし、rf-modelを使用して、欠損値のある新しいケースを予測する方法があるはずですよね?

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
予測変数が欠落している重回帰
(y、x1、x2、⋯ 、xん)(y、バツ1、バツ2、⋯、バツん)(y,x_{1},x_{2},\cdots, x_{n})との形式のデータセットが与えられたとします(y、x1、x2、⋯ 、xn − 1)(y、バツ1、バツ2、⋯、バツん−1)(y,x_{1},x_{2},\cdots, x_{n-1})。xの値に基づいてyyyを予測するタスクが与えられます。:我々は2つの回帰どこ見積もり yとバツバツxyy= f1(x1、⋯ 、xn − 1、xん)= f2(x1、⋯ 、xn − 1)(1)(2)(1)y=f1(バツ1、⋯、バツん−1、バツん)(2)y=f2(バツ1、⋯、バツん−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} 我々はまた、の値を予測する回帰推定の値に基づいて、(X 1、⋯ 、X N - 1):であり、 X N =をfを3(X 1、⋯ 、X N - 1)バツんバツんx_{n}(x1、⋯ 、xn − 1)(バツ1、⋯、バツん−1)(x_{1},\cdots, x_{n-1})バツん= f3(x1、⋯ 、xn − 1)(3)(3)バツん=f3(バツ1、⋯、バツん−1) …

4
自己相関およびニューラルネットワークにMatlabを使用する場合、時系列データのギャップ/ NaNを処理する方法は?
時系列の測定(高さ-1次元シリーズ)があります。観測期間中、いくつかの時点で測定プロセスがダウンしました。したがって、結果のデータは、データにギャップがあったNaNのベクトルです。これは、MATLABを使用して、自己相関の計算(autocorr)とニューラルネットワークの適用()の際に問題を引き起こしていますnnstart。 これらのギャップ/ NaNはどのように処理されるべきですか?これらをベクターから削除するだけですか?または、それらのエントリを補間された値に置き換えますか?(もしそうなら、MATLABでどうやって)

3
カテゴリー変数の「わからない/拒否された」レベルの扱い
私はロジスティック回帰を使用して糖尿病予測をモデル化しています。使用されるデータセットは、疾病対策センター(CDC)の 行動危険因子監視システム(BRFSS)です。独立変数の1つは高血圧です。これは、「はい」、「いいえ」、「わからない/拒否」のレベルのカテゴリーです。モデルの作成中に「Do n't know / Refused」の行を削除する必要がありますか?それらの行をモデルから保持または削除することでどのような違いがありますか?

7
サイズが等しくない2つの変数間の相関
私が取り組んでいる問題で、XとYの2つの確率変数があります。2つがどれほど密接に相関しているかを理解する必要がありますが、それらは次元が異なります。Xの行スペースのランクは4350であり、Yの行スペースのランクは数万とかなり大きくなっています。XとYの両方に同じ数の列があります。 2つの変数間の相関関係の測定が必要です。ピアソンのrは、XとYの次元が等しい必要があります(少なくともRは、2つのrvが必要です)。 これらの2つの間に相関関係を作る希望はありますか、それともYからの観測を切り捨てる方法を見つける必要がありますか? EDIT 質問に含まれるべきコメントから情報を追加します。 私はこれについて言及するのを忘れたと思います。XとYは株価です。X社はY社よりもはるかに短い期間公開されました。XとYの価格がどのように相関しているかを教えてください。XとYの両方が存在する期間の相関関係を確実に得ることができました。Xが存在しないというYの余計な数年間の株価を知ることで、追加情報が得られるかどうか知りたいと思いました。

2
データが欠落している生存モデルが適切かどうかをどのように判断しますか?
少し単純化しますと、約10年間にわたるシステムの人々の入口時間と出口時間を記録するレコードが約100万個あります。すべてのレコードにエントリ時間がありますが、すべてのレコードに終了時間があるわけではありません。システムの平均時間は約1年です。 終了時間の不足は、次の2つの理由で発生します。 その人は、データがキャプチャされたときにシステムを離れていません。 その人の退出時刻は記録されませんでした。これはたまたまレコードの50%と言っています 関心のある質問は次のとおりです。 人々はシステムに費やす時間が少なく、どれだけ時間が少ないのでしょうか。 より多くの終了時間が記録されていますか。 これをモデル化するには、出口が記録される確率が時間とともに線形に変化し、システムの時間には、パラメーターが時間とともに線形に変化するワイブルがあるということです。次に、さまざまなパラメーターの最尤推定値を作成し、結果を眼球で確認し、それらを妥当であると見なします。ワイブル分布を選択したのは、寿命の測定に使用されているようで、ガンマ分布よりもデータを適切にフィッティングするのではなく、言うのが楽しいからです。 これを正しく行う方法についての手掛かりを得るために、どこを探すべきですか?私たちは幾分数学に精通していますが、統計的に極端に精通しているわけではありません。


1
消えているワシの統計分析
スコットランドでは、サテライトでタグ付けされたワシがなくなっており、上の表は、タグモデルごとのタグの運命を示しています。「停止-誤動作なし」のタグに特に興味があります。これらの鳥も殺され、体とタグが処分されている可能性があるためです。 この表とこの表のみが「最も離れた統計分析でも、「停止-誤動作なし」と使用されるタグのタイプの間に関係があることは明らかである」という証拠であることを述べたのを見たので、私の質問は、ステートメントはバックアップされますか? 42/135 (31%) tags stopped for all types 8/17 (47%) tags stopped for 80NS 29/77 (38%) tags stopped for 70GPS 3/22 (14%) tags stopped for 105GPS 2/13 (15%) tags stopped for 70GSM 0/6 (0%) tags stopped for 95BTOGSM したがって、80NSの故障率が47%であり、世界平均の31%よりも大幅に悪い場合、この説明は正しいと思います。また、135個のうち17個のタグのランダムなサンプルで8つの失敗が発生する確率が実際にはかなり高い場合は、正しくありません。より抽象的には、バッグに42個の黒いボールと93個の白いボールがあり、ランダムに17個を選んだ場合、8個の黒いボールと9個の白いボールを選ぶ確率はどのくらいですか? 最初の8が黒になる確率は(42/135)*(41/134)などとして計算できますが、17のうちの8が黒になる可能性を計算しようとして立ち往生しています 編集:サテライトタグは、2004年から2016年までの13年間で鳥に取り付けられました。この表は、135ではなく131のタグを示しています。4つのタグは、4つの初期タグの正確な配置場所を確認できなかったため除外されました。 これは、70GPS / 70GSMタグの寿命に関するいくつかのデータを示すレポートの別の表です。

2
欠落している観測を削除しても大丈夫ですか?
移民申請書とビザの受け入れ(ビザの付与)を調べるデータセットを持っています。料金はビザ申請の「受理」と「拒否」に対して計算されます。 ただし、データセットには、クローズされたケースの値も含まれています。通常、これは移民が予定まで表示されなくなったか、他の場所に移住したか、死亡したかのいずれかです。率が計算されるときにこれらの数値は使用されないため、率が欠落していると表示されることがよくあります(ケースが受け入れられず、拒否もされなかったため)。 そうは言っても、その年の唯一のケースが「その他の方法でクローズ」された場合、これらの観察を破棄しても大丈夫でしょうか?私が抱えている問題の一部は、その年の唯一の決定がクローズされたため、データセット内のランダムな年が削除されることです。 さもなければクローズされたケースは非常に恣意的であり、私が述べたように、おそらく移民がどこか別の場所に移住し、おそらく最初の国を一時的な通過場所として使用したケースです。データは移民がなぜ去ったのか、なぜ彼らが閉じられたのかなどを具体的に述べていません。私はこれらの欠損値をどのように処理するのか本当にわかりません。レート計算のため、ここでは標準の補完法が機能するとは思わない(ただし、間違っている可能性がある)。

1
傾向スコア分析で、非常に小さいまたは大きい傾向を処理するためのオプションは何ですか?
\newcommand{\P}{\mathbb{P}}治療の割り当てを非常によく説明できる観測データに関心があります。たとえば、のロジスティック回帰 P(A=1 | X)= (1 + exp(− (Xβ)))− 1P(A=1|X)=(1+exp⁡(−(Xβ)))−1\P(A =1 |X) = (1+ \exp(-(X\beta)))^{-1} wehre あAA治療割り当てとバツXX共変量は、非常に高いテストと非常に良好なフィット感があるA UC> .80AUC>.80AUC >.80、さらには> .90>.90>.90。これは傾向モデルの精度にとって朗報ですが、傾向スコアの推定につながりますπ^=(1 + exp(− (Xβ^)))− 1π^=(1+exp⁡(−(Xβ^)))−1\hat{\pi} = (1+ \exp(-(X \hat{\beta})))^{-1}閉じる000または111。これらは、結果の期待値の逆確率重み付け推定量などの推定量で使用される大きな逆確率重みπ^− 1π^−1\hat{\pi}^{-1}および(1- \ hat {\ pi})^ {-1}につながりますY_1(観察中の観察):(1 − π^)− 1(1−π^)−1(1-\hat{\pi})^{-1}Y1Y1Y_1 ん− 1Σ私π私^− 1あ私Y1 i。n−1∑iπi^−1AiY1i.n^{-1} \sum_i \hat{\pi_i}^{-1} A_i Y_{1i}. これにより、推定値の分散が非常に大きくなると思います。 非常に差別的な傾向スコアモデルが極端な重みにつながるのは悪循環のようです。 私の質問:この分析をより堅牢にするために利用可能なオプションは何ですか?傾向スコアモデルを適合させる代替手段はありますか、またはモデルが適合した後に大きな重みを処理する方法はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.