統計とビッグデータ synthetic-data

2

コンテキストとして：非常に大きなデータセットを使用する場合、予測変数と応答変数の関係、または予測変数間の関係を「知っている」合成データセットを作成できるかどうかを尋ねられることがあります。何年もの間、私は一時的な合成データセット（それらはアドホックな方法で作成されたように見える）、または研究者の提案したモデリング手法に特に有利と思われるより構造化されたデータセットのいずれかに遭遇するようです。私は合成データセットを作成するための標準的な方法を見ていると思います。ブートストラップのリサンプリングは、合成データセットを作成するための1つの一般的な方法ですが、アプリオリの構造を知っているという条件を満たしていません。さらに、ブートストラップサンプルを他のサンプルと交換するには、データを生成する方法ではなく、データを交換する必要があります。パラメトリック分布をデータに適合させるか、十分に近いパラメーター化モデルを見つけることができる場合、これは合成データセットを生成できる1つの例です。他にどのような方法がありますか？特に高次元データ、スパースデータ、および時系列データに興味があります。高次元データの場合、関心のある構造（共分散構造、線形モデル、木など）を生成できるメソッドを探します。時系列データの場合、FFT、ARモデル、またはその他のさまざまなフィルタリングモデルまたは予測モデルを介した分布から開始するようです。スパースデータの場合、スパースパターンを再現すると便利なようです。これらは表面をひっかくだけだと思います-これらはヒューリスティックであり、正式な慣行ではありません。実践者に知られるべき合成データを生成するための参照またはリソースはありますか？注1：この質問は、特定の時系列モデルのようなデータを生成する方法に関する文献を扱っていることを理解しています。ここでの違いは、特に既知の構造（私の質問）を示すためのプラクティスと、既存のデータセットとの類似性/忠実度です。私の場合、既知の構造と同じくらい類似性を持つ必要はありませんが、類似性は非類似性よりもはるかに優先されます。モデルが有望であるエキゾチックな合成データセットは、現実的なシミュレーションよりも好ましくありません。注2：合成データに関するWikipediaのエントリは、RubinやFienbergなどの著名人がこの問題に対処していることを指摘していますが、ベストプラクティスに関する参照は見つかりませんでした。たとえば、応用統計学（AOS）やこれらの雑誌や他の雑誌のレビュー作品で何が通用するかを知ることは興味深いでしょう。簡単で気まぐれな言葉で言えば、「（容認可能）調理済み」と「調理しすぎ」の間のしきい値はどこにあるのかと尋ねることができますか？注3：質問には影響しませんが、使用シナリオは、さまざまな大規模で高次元のデータセットのモデリングであり、そこでは、研究の課題はデータの構造を（人間と機械の両方で;-)学ぶことです。単変量、二変量、およびその他の低次元のシナリオとは異なり、構造は容易に推測されません。構造の理解を深めるために、モデリングメソッドとデータの相互作用を確認するために（たとえば、パラメーターの安定性を調べるために）、同様のプロパティを持つデータセットを生成できることが重要です。それにもかかわらず、低次元の合成データに関する古いガイドは、より高次元のデータセットに拡張または適合させることができる出発点になる可能性があります。

26 modeling reproducible-research synthetic-data

10

構成データのベストターム？

私は例を書いて、いくつかのデータを作成しました。これが実際のデータではないことを読者に明確にしたいのですが、悪意のある印象を与えたくはありません。それは単なる例に過ぎないからです。この特定のデータに（擬似）ランダムなコンポーネントはないため、「シミュレートされた」は適切ではないと思われます。架空または偽造と呼ぶと、それは不正なデータの印象を与えますか？「作り上げられた」という言葉は科学的な文脈に当てはまるでしょうか？シミュレートされていない構成データの統計文献の用語は何ですか？

23 terminology synthetic-data

1

不均衡なデータセットの作成

訓練されたモデルを不均衡なデータセットでテストしてもらいたいのですが。バランスのとれたラベル付きデータセット（スパム/非スパム）から合成データを生成するために利用できるアルゴリズムはありますか？

11 unbalanced-classes synthetic-data

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

タグ付けされた質問 「synthetic-data」

タグ付けされた質問「synthetic-data」