コンテキストとして:非常に大きなデータセットを使用する場合、予測変数と応答変数の関係、または予測変数間の関係を「知っている」合成データセットを作成できるかどうかを尋ねられることがあります。
何年もの間、私は一時的な合成データセット(それらはアドホックな方法で作成されたように見える)、または研究者の提案したモデリング手法に特に有利と思われるより構造化されたデータセットのいずれかに遭遇するようです。
私は合成データセットを作成するための標準的な方法を見ていると思います。ブートストラップのリサンプリングは、合成データセットを作成するための1つの一般的な方法ですが、アプリオリの構造を知って いるという条件を満たしていません。さらに、ブートストラップサンプルを他のサンプルと交換するには、データを生成する方法ではなく、データを交換する必要があります。
パラメトリック分布をデータに適合させるか、十分に近いパラメーター化モデルを見つけることができる場合、これは合成データセットを生成できる1つの例です。
他にどのような方法がありますか?特に高次元データ、スパースデータ、および時系列データに興味があります。高次元データの場合、関心のある構造(共分散構造、線形モデル、木など)を生成できるメソッドを探します。時系列データの場合、FFT、ARモデル、またはその他のさまざまなフィルタリングモデルまたは予測モデルを介した分布から開始するようです。スパースデータの場合、スパースパターンを再現すると便利なようです。
これらは表面をひっかくだけだと思います-これらはヒューリスティックであり、正式な慣行ではありません。実践者に知られるべき合成データを生成するための参照またはリソースはありますか?
注1:この質問は、特定の時系列モデルのようなデータを生成する方法に関する文献を扱っていることを理解しています。ここでの違いは、特に既知の構造(私の質問)を示すためのプラクティスと、既存のデータセットとの類似性/忠実度です。私の場合、既知の構造と同じくらい類似性を持つ必要はありませんが、類似性は非類似性よりもはるかに優先されます。モデルが有望であるエキゾチックな合成データセットは、現実的なシミュレーションよりも好ましくありません。
注2:合成データに関するWikipediaのエントリは、RubinやFienbergなどの著名人がこの問題に対処していることを指摘していますが、ベストプラクティスに関する参照は見つかりませんでした。たとえば、応用統計学(AOS)やこれらの雑誌や他の雑誌のレビュー作品で何が通用するかを知ることは興味深いでしょう。簡単で気まぐれな言葉で言えば、「(容認可能)調理済み」と「調理しすぎ」の間のしきい値はどこにあるのかと尋ねることができますか?
注3:質問には影響しませんが、使用シナリオは、さまざまな大規模で高次元のデータセットのモデリングであり、そこでは、研究の課題はデータの構造を(人間と機械の両方で;-)学ぶことです。単変量、二変量、およびその他の低次元のシナリオとは異なり、構造は容易に推測されません。構造の理解を深めるために、モデリングメソッドとデータの相互作用を確認するために(たとえば、パラメーターの安定性を調べるために)、同様のプロパティを持つデータセットを生成できることが重要です。それにもかかわらず、低次元の合成データに関する古いガイドは、より高次元のデータセットに拡張または適合させることができる出発点になる可能性があります。