統計とビッグデータ missing-data

1

データテーブルT1があり、これには約1000個の変数（V1）と約2億個のデータポイントが含まれています。データはまばらで、ほとんどのエントリはNAです。各データポイントには、他と区別するための一意のIDと日付のペアがあります。別の変数セット（V2）を含む別のテーブルT2があります。このテーブルには、T2のエントリを一意に識別するIDと日付のペアもあります。 T1のデータを使用して、T2の変数の値を予測できると思われます。これを証明するために、Rに「glm」モデルを適用し、T1の変数に依存するT2の変数を本当に見つけることができるかどうかを確認することを考えました。 T2の各変数について、同じidと日付のペアを持つT1のすべてのデータを引き出し始め、テスト変数のいくつかについて、はるかに小さい〜50Kデータポイントになりました。 glmの適用で今直面している問題は次のとおりです。場合によっては、「フィットが見つかりません」というエラーと「glm.fit：アルゴリズムが収束しませんでした」という警告が表示されます。なぜ表示されるのか分かりませんか？ NAはglmでどのように扱われますか？最初に「NA」を含むすべてのレコードを削除してから、フィッティングを実行しますか？最初にすべてのNAを削除してから「glm」を呼び出すのは良い戦略ですか？それらのほとんどがNAであるため、これによりデータポイントが大幅に削減される可能性があることを恐れています。係数の計算に使用される方法。出力がどのように計算されるかを議論するウェブサイト、論文、または本を見つけることができませんでした。「NA」を使用して、または使用せずにglmをテストし、データをフィッティングする際にNAが考慮される点について、difftの回答を見つけました。例1： > tmpData x1 x2 x3 Y 1 1 1 1 3 2 1 0 4 5 3 1 2 3 6 4 0 3 1 4 Call: glm(formula = as.formula(paste(dep, " ~ ", paste(xn, collapse = "+"))), na.action …

19 r generalized-linear-model missing-data

3

Rの欠損データの完全情報最尤法

コンテキスト：いくつかの欠損データがある階層回帰。質問：完全な情報最尤法（FIML）推定を使用して、Rの欠落データに対処するにはどうすればよいですか？推奨するパッケージはありますか？また、一般的な手順は何ですか？オンラインリソースと例も非常に役立ちます。 PS：私は最近Rの使用を開始した社会科学者です。多重代入はオプションですが、MplusのようなプログラムがいかにエレガントにFIMLを使用して欠損データを処理するかが大好きです。残念ながら、現時点では、Mplusは階層回帰のコンテキストでモデルを比較していないようです（その方法を知っている場合はお知らせください！）。Rに似たようなものがあるのだろうか？どうもありがとう！

18 r maximum-likelihood missing-data

2

Rで数値/カテゴリ値の両方で順序ロジスティック回帰分析を実行するにはどうすればよいですか？

基本データ：評価「1,1」「良い」「2」「中間」または「3」「悪い」でマークされた人が約1,000人あります-これらは将来の人のために予測しようとしている値です。それに加えて、性別（カテゴリ：M / F）、年齢（数値：17-80）、および人種（カテゴリ：黒/白人/ラテン系）の人口統計情報があります。主に4つの質問があります。最初に、上記のデータセットを重回帰分析として実行しようとしました。しかし、私は最近、私の従属変数が順序変数であり、連続変数ではないため、このようなことには順序ロジスティック回帰を使用する必要があることを学びました。最初はのようなものを使用していましたがmod <- lm(assessment ~ age + gender + race, data = dataset)、誰かが私を正しい方向に向けられますか？そこから、私が快適だと思う係数を取得すると仮定して、x1、x2などの数値のみをプラグインする方法を理解します-しかし、たとえば、複数の応答がある場合、レースにどのように対処しますか：黒/白人/ラテン系？それで、コーカサス係数が0.289で、予測しようとしている人がコーカサス人であることがわかった場合、値は数値ではないので、どのように元に戻すのですか？レース用、性別用など、欠落しているランダムな値もあります。これが歪んでいないことを確認するために、さらに何かをする必要がありますか？（データセットがR-StudioにロードされNA、欠落データがとしてロードされると、Rは次のよう(162 observations deleted due to missingness)になりますが、空白としてロードされても、何もしません。）これがすべてうまくいき、性別、年齢、人種を予測したい新しいデータがあると仮定します。新しい係数を持つ私の式が判明したとしても、Rでそれをすべて実行する簡単な方法がありますか？手動で行うのではなく？（この質問がここで適切でない場合は、Rフォーラムに戻すことができます。）

17 r regression logistic missing-data ordered-logit

2

結果変数の多重代入

農業試験に関するデータセットがあります。私の応答変数は応答率です：log（treatment / control）。私は違いを媒介するものに興味があるので、REメタ回帰を実行しています（重みなし、効果の大きさは推定値の分散と無相関であることが明らかだからです）。各研究では、穀物収量、バイオマス収量、またはその両方が報告されています。研究されたすべての植物が穀物に役立つわけではないので（例えばサトウキビが含まれているため）、バイオマス収量だけを報告する研究から穀物収量を推定することはできません。しかし、穀物を生産する各植物にはバイオマスもありました。不足している共変量については、反復回帰代入を使用しています（Andrew Gelmanの教科書の章に続きます）。合理的な結果が得られるようで、プロセス全体は一般的に直感的です。基本的に、欠損値を予測し、それらの予測値を使用して欠損値を予測し、各変数がほぼ収束するまで（分布で）各変数をループします。同じプロセスを使用して欠落した結果データを補完できない理由はありますか？穀物の反応率、作物の種類、および私が持っている他の共変量を考えると、おそらくバイオマスの反応率の比較的有益な補完モデルを形成できます。次に、係数とVCVを平均し、標準的な方法に従ってMI補正を追加します。しかし、結果自体が帰属する場合、これらの係数は何を測定しますか？係数の解釈は共変量の標準MIとは異なりますか？考えてみると、これが機能しないことを納得することはできませんが、よくわかりません。資料を読むための考えや提案を歓迎します。

17 missing-data meta-analysis multiple-imputation meta-regression

2

現在の菜食主義者に関する調査データしかない場合、菜食主義の平均遵守期間を計算する方法は？

ランダムな人口サンプルが調査されました。彼らは菜食を食べるか尋ねられました。「はい」と答えた場合、菜食主義者の食事を中断することなくどのくらいの期間食べているかを指定するように求められました。このデータを使用して、菜食主義の平均遵守期間を計算します。言い換えれば、誰かが菜食主義者になったとき、私は平均して彼らが菜食主義者のままでいることを長く知りたいと思います。それを仮定しましょう：すべての回答者が正確かつ正確に回答した世界は安定しています：菜食主義の人気は変わらず、アドヒアランスの平均期間も変わりません。これまでの私の推論毎年の初めに2人がベジタリアンになる世界のおもちゃモデルを分析すると役立つことがわかりました。毎回、1人は1年間ベジタリアンを続け、もう1人は3年間滞在します。明らかに、この世界のアドヒアランスの平均期間は（1 + 3）/ 2 = 2年です。以下に例を示します。各長方形は、菜食主義の期間を表します。 4年目の半ばに調査を行ったとしましょう（赤線）。次のデータを取得します。調査を3年目以降の任意の年に受けた場合、同じデータが得られます。得られた回答の平均をとると、次のようになります。（2 * 0.5 + 1.5 + 2.5）/ 4 = 1.25 誰もが調査直後に菜食主義者でなくなったと仮定しているため、過小評価していますが、これは明らかに間違っています。これらの参加者がベジタリアンのままでいる実際の平均時間に近い推定値を取得するために、平均して、菜食主義の期間の約半分の時間を報告し、報告された期間に2を掛けると仮定できます。（私が分析しているような）人口から、これは現実的な仮定だと思います。少なくとも、正しい期待値が得られます。ただし、2倍にすることが唯一の場合、平均2.5になりますが、これは過大評価です。これは、菜食主義者が長くいるほど、現在の菜食主義者のサンプルに含まれる可能性が高くなるためです。誰かが現在の菜食主義者のサンプルに含まれている確率は、菜食主義の長さに比例すると思いました。この偏りを説明するために、私は現在のベジタリアンの数を彼らの予測されたアドヒアランスの長さで割ろうとしました：ただし、これにより不正確な平均も得られます。（2 * 1 +⅓* 3 +⅕* 5）/（2 +⅓+⅕）= 4 / 2.533333 = 1.579年菜食主義者の数を正しいアドヒアランスの長さで割った場合、正しい推定値が得られます。（1 +⅓*（1 + 3 + 5））/（1 +⅓* 3）= 2年しかし、アドヒアランスの予測された長さを使用し、それが実際に私が持っているすべてである場合、それは機能しません。他に何を試すべきかわかりません。私はサバイバル分析について少し読みましたが、この場合にどのようにそれを適用するのかわかりません。理想的には、90％の信頼区間も計算できるようにしたいと思います。どんなヒントでも大歓迎です。 …

16 survival mean missing-data survey weighted-mean

2

時系列で欠落データを埋める方法は？

私は2年間にわたって10分ごとに記録された汚染データの大規模なセットを持っていますが、データにはいくつかのギャップがあります（一度に数週間続くものを含む）。データは非常に季節性があるようで、値に大きな変化がなく、データポイントが低い夜と比較して、日中は大きな変動があります。私は黄土モデルを昼と夜のサブセットに別々に適合させ（それらの間に明らかな違いがあるため）、欠損データの値を予測し、これらのポイントを埋めることを検討しました。これがこの問題に対処する適切な方法であるかどうか、また予測されたポイントに局所的な変動を追加する必要があるかどうかは疑問でした。

16 time-series missing-data data-imputation

3

欠損値や不規則な時系列でR予測パッケージを使用する

R forecastパッケージ、zooおよび不規則な時系列や欠損値の補間などのパッケージに感銘を受けました。私のアプリケーションはコールセンターのトラフィック予測の領域にあるため、週末のデータは常に（ほぼ）欠落していzooます。これはでうまく処理できます。また、いくつかの離散ポイントが欠落している可能性がありますNA。そのためにRを使用しています。事ある次のような予測パッケージ、すべての素敵な魔法eta()、auto.arima()など、平野期待しているように見えるts物体は、つまりは、欠落したデータを含まない時系列を等間隔。等間隔のみの時系列の実世界のアプリケーションは確かに存在すると思いますが、-私の意見では-非常に限られています。少数の離散の問題NA値が容易に提供される補間関数のいずれかを使用することによって解決することができるzooだけでなくによってforecast::interp。その後、予測を実行します。私の質問：誰かがより良い解決策を提案していますか？（私の主な質問）少なくとも私のアプリケーションドメイン、コールセンターのトラフィック予測（および他のほとんどの問題ドメインを想像できる限り）では、時系列は等間隔ではありません。少なくとも、定期的な「営業日」スキームなどがあります。それを処理し、予測パッケージのすべてのクールな魔法を使用する最良の方法は何ですか？週末を埋めるために時系列を「圧縮」し、予測を実行してから、週末にNA値を再挿入するためにデータを再度「膨らませ」ますか？（それは残念だと思いますか？）予測パッケージを、動物園やそのような不規則な時系列パッケージと完全に互換させる計画はありますか？はいの場合、いつ、いいえの場合、なぜですか？私は予測（および統計全般）が初めてなので、重要なことを見落とす可能性があります。

16 r time-series forecasting missing-data unevenly-spaced-time-series

4

勾配ブースティングマシンの精度は、反復回数が増えると低下します

caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか？

順列テスト（ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます）は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。注：置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。更新：私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1：1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1（ベースライン）、V2（3か月後）、およびV3（1年後）のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較できますか？-薬物と被験者をV2でプラセボを投与した被験者と比較するますか？-機能Aの対象とV2の機能Bの対象を比較しますか？ -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか？ -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか？

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

3

サンプルサイズ、最小値と最大値から正規分布を再構築できますか？中間点を使用して平均を代理できます

私はこれが統計的には少し強引かもしれないことを知っていますが、これは私の問題です。範囲データ、つまり変数の最小、最大、サンプルサイズがたくさんあります。これらのデータの一部については平均値もありますが、多くはありません。これらの範囲を互いに比較して、各範囲の変動性を定量化し、平均を比較したいと思います。分布が平均に関して対称的であり、データがガウス分布を持っていると仮定する正当な理由があります。このため、平均値が存在しない場合、分布の中間点を平均値のプロキシとして使用することを正当化できると考えています。私がやりたいのは、各範囲の分布を再構築し、それを使用してその分布の標準偏差または標準誤差を提供することです。私が持っている唯一の情報は、サンプルから観測された最大値と最小値、および平均値のプロキシとしての中点です。このようにして、各グループの加重平均を計算でき、また、私が持っている範囲データと（対称および正規分布の）仮定に基づいて、各グループの変動係数も計算できるようになります。私はこれを行うためにRを使用する予定であるため、コードのヘルプも歓迎します。

14 r normal-distribution estimation missing-data order-statistics

1

指数平滑化モデルで欠損データを処理する

モデルの指数平滑化ファミリのコンテキストで欠損データを処理する標準的な方法はないようです。特に、予測パッケージのetsと呼ばれるR実装は、データが欠落することなく、最も長いサブシーケンスをとるように思われます。また、Hindman et alの「Forecasting with Exponential Smoothing」という本もそうです。欠落データについてはまったく話していないようです。ユーザーが明示的に私に尋ねた場合（そして、不足しているデータが互いに近すぎたり、正確に1シーズン離れている期間にあまり発生しない場合）、もう少しやりたいと思います。特に、私が念頭に置いているのは以下です。シミュレーション中に、欠損値が発生するたびに、現在のポイント予測をに置き換えて、ます。これにより、たとえば、パラメータポイントの最適化プロセスでデータポイントが考慮されなくなります。〜Yトンytyty_ty~ty~t\tilde y_tytyty_tεt=0εt=0\varepsilon_t = 0 パラメーターの妥当な適合が得られたら、エラーの標準偏差（平均で正常と仮定）を推定し、その分布から生成された値を使用して尤度が大きく低下しないことを確認できます。私はそのような値を（シミュレーションを使用して）予測にも使用します。000ϵtϵt\epsilon_t この方法には落とし穴がありますか？

14 time-series forecasting missing-data

2

可変数の特徴を持つデータセットを扱う

可変数の特徴を持つデータを分類するためのいくつかのアプローチは何ですか？例として、各データポイントがxおよびyポイントのベクトルであり、各インスタンスに同じ数のポイントがないという問題を考えます。xおよびyポイントの各ペアを特徴として扱うことはできますか？または、各データポイントに固定数のフィーチャが含まれるように、ポイントを何らかの形で要約する必要がありますか？

14 machine-learning missing-data

3

ランダムな欠落（MAR）と完全なランダムな欠落（MCAR）の区別

これらの2つを複数回説明しました。彼らは私の脳を調理し続けます。Missing Not at Randomは理にかなっており、Missing Completely at Randomは理にかなっています...それほど多くないのはMissing at Randomです。 MARであるがMCARではないデータの原因は何ですか？

13 missing-data

5

欠損値の多重代入

特定の制約の下でデータセットの欠損値を置き換えるために代入を使用したいと思います。たとえば、代入さx1れた変数が、他の2つの変数、たとえばx2との合計以上になるようにしますx3。またx3、0またはのいずれかに代入され>= 14たいx2、0またはのいずれかに代入されたい>= 16。複数の代入に対してSPSSでこれらの制約を定義しようとしましたが、SPSSでは最大値と最小値しか定義できません。SPSSでさらに制約を定義する方法はありますか、または、欠損値の代入のためにこのような制約を定義できるRパッケージを知っていますか？私のデータは次のとおりです。 x1 =c(21, 50, 31, 15, 36, 82, 14, 14, 19, 18, 16, 36, 583, NA,NA,NA, 50, 52, 26, 24) x2 = c(0, NA, 18,0, 19, 0, NA, 0, 0, 0, 0, 0, 0,NA,NA, NA, 22, NA, 0, 0) x3 = c(0, 0, 0, 0, …

13 r spss missing-data multiple-imputation

1

スプラインまたは分数多項式を使用するときに、欠落データをどのように処理できますか？

私は、多変数モデルの構築を読んでいます： Patrick RoystonとWillie Sauerbreiによる連続変数のモデリングのための分数多項式に基づく回帰分析への実用的なアプローチ。これまでのところ、私は感銘を受けており、これまで考えもしなかった興味深いアプローチです。しかし、著者は欠損データを扱っていません。確かに、p。17彼らは、データの欠落は「多くの追加の問題を引き起こす。ここでは考慮されない」と言う。複数の代入は分数多項式で動作します> FPは、ある意味では（すべてではありませんが）スプラインの代替です。スプライン回帰の欠落データを処理するのは簡単ですか？

12 regression missing-data fractional-polynomial

タグ付けされた質問 「missing-data」

タグ付けされた質問「missing-data」