合成データセットを作成するための標準的なプラクティスは何ですか?


26

コンテキストとして:非常に大きなデータセットを使用する場合、予測変数と応答変数の関係、または予測変数間の関係を「知っている」合成データセットを作成できるかどうかを尋ねられることがあります。

何年もの間、私は一時的な合成データセット(それらはアドホックな方法で作成されたように見える)、または研究者の提案したモデリング手法に特に有利と思われるより構造化されたデータセットのいずれかに遭遇するようです。

私は合成データセットを作成するための標準的な方法を見ていると思います。ブートストラップのリサンプリングは、合成データセットを作成するための1つの一般的な方法ですが、アプリオリの構造を知って いるという条件を満たしていません。さらに、ブートストラップサンプルを他のサンプルと交換するには、データを生成する方法ではなく、データを交換する必要があります。

パラメトリック分布をデータに適合させるか、十分に近いパラメーター化モデルを見つけることができる場合、これは合成データセットを生成できる1つの例です。

他にどのような方法がありますか?特に高次元データ、スパースデータ、および時系列データに興味があります。高次元データの場合、関心のある構造(共分散構造、線形モデル、木など)を生成できるメソッドを探します。時系列データの場合、FFT、ARモデル、またはその他のさまざまなフィルタリングモデルまたは予測モデルを介した分布から開始するようです。スパースデータの場合、スパースパターンを再現すると便利なようです。

これらは表面をひっかくだけだと思います-これらはヒューリスティックであり、正式な慣行ではありません。実践者に知られるべき合成データを生成するための参照またはリソースはありますか?


注1:この質問は、特定の時系列モデルのようなデータを生成する方法に関する文献を扱っていることを理解しています。ここでの違いは、特に既知の構造(私の質問)を示すためのプラクティスと、既存のデータセットとの類似性/忠実度です。私の場合、既知の構造と同じくらい類似性を持つ必要はありませんが、類似性は非類似性よりもはるかに優先されます。モデルが有望であるエキゾチックな合成データセットは、現実的なシミュレーションよりも好ましくありません。

注2:合成データに関するWikipediaのエントリは、RubinやFienbergなどの著名人がこの問題に対処していることを指摘していますが、ベストプラクティスに関する参照は見つかりませんでした。たとえば、応用統計学(AOS)やこれらの雑誌や他の雑誌のレビュー作品で何が通用するかを知ることは興味深いでしょう。簡単で気まぐれな言葉で言えば、「(容認可能)調理済み」と「調理しすぎ」の間のしきい値はどこにあるのかと尋ねることができますか?

注3:質問には影響しませんが、使用シナリオは、さまざまな大規模で高次元のデータセットのモデリングであり、そこでは、研究の課題データの構造を(人間と機械の両方で;-)学ぶことです。単変量、二変量、およびその他の低次元のシナリオとは異なり、構造は容易に推測されません。構造の理解を深めるために、モデリングメソッドとデータの相互作用を確認するために(たとえば、パラメーターの安定性を調べるために)、同様のプロパティを持つデータセットを生成できることが重要です。それにもかかわらず、低次元の合成データに関する古いガイドは、より高次元のデータセットに拡張または適合させることができる出発点になる可能性があります。

回答:


7

私はわからないよされた合成データを生成するための標準的な慣行-専用のデータは、より一般的かつ間違いなく、より合理的なアプローチであると思われることを研究のように多くの異なる側面でそう頻繁に使われています。

私にとって、私の最高の標準的な慣行があるではない、それはモデルとうまく動作しますので、データセットを作成します。それは研究段階の一部であり、データ生成段階の一部ではありません。代わりに、データ生成プロセスを反映するようにデータを設計する必要があります。たとえば、疫学のシミュレーション研究では、既知の分布を持つ大規模な仮想母集団から開始し、「母集団」を直接生成するのではなく、その母集団から標本抽出をシミュレートします。

たとえば、以下の説明に基づいて、私が作成したシミュレーションデータの2つの例を示します。

  • 以下のSIRモデルの例とやや似ていますが、結果を結果として扱った場合、特定の定数パラメータが必ずしも一定の危険を意味するわけではないことをシミュレーションで示すために、ネットワーク上の病気の広がりの数学モデルを使用しましたコホート研究の。分析ソリューションを探しに行ったとき、それは概念の有用な証明でした。
  • 症例対照研究のための特定のサンプリングスキームの影響を調査したかった。研究を完全に生成しようとするのではなく、プロセスの各ステップを順を追って説明しました。既知の疾患有病率と既知の共変量パターンを持つ、1,000,000人の人口。次に、サンプリングプロセスのシミュレーションから-この場合、どのようにケースとコントロールが母集団から引き出されたか。その後、収集された「シミュレーション研究」で実際の統計モデルを投げました。

後者のようなシミュレーションは、研究の募集方法、共変量を制御するための統計的アプローチなどの影響を調べる際に非常に一般的です。


回答ありがとうございます。しかし、疫学について私が知っていることに基づいて、かなり有用な確率論的モデル、特にSIRモデルの開発において、さらに多くのことが行われました。これは、他の多くのドメインでは当てはまりませんが、許容可能な確率的データモデルを迅速に開発できることは私の意図の一部です。
イテレーター

@Iteratorそれはあなたがどこにいるか、そしてあなたが話している疫学のどの側面に大きく依存します。たとえば、癌の疫学者は、SIRモデルで「さらに多く」が行われたことを聞いてショックを受けます。SIRタイプのモデルは疫学の特定の部分(感染症エピ、さらにはIDエピの大部分ではない)の側面ですが、フィールドとしての疫学は統計モデル、特に一般的な線形モデル、生存率を大いに活用します分析と時系列。
フォマイト

おっ オフェンスは意図していませんが、SIRモデルは標準データ生成モデルの非常に良い例であるとだけ述べました。もちろん、モデリング手法の全範囲を使用するエピの他の領域があることを認識しています。疫学で使用されている他のデータ生成方法に関するポインタまたは参照がある場合、私はそれらに非常にオープンです。
イテレーター

1
@Iterator気分を害したという印象を与えてすみません。ほとんどありません;)。私は数学的エピと観察疫学の交差点に正座し、ある地域の人々は他の地域が存在するのでびっくりするので、それは私が得るものです。非SIRタイプの例を使用して回答を編集します。
フォマイト

2

R統計パッケージには、既存のデータに適合するモデルに基づいてデータをシミュレートするシミュレート機能があります。これは、適合モデルを「既知の」母集団関係として使用し、そのモデルに基づいて新しいデータをシミュレートします。lme4パッケージには、この関数のメソッドがあります。これらの適合オブジェクトは、ランダムおよび固定効果と相関(時系列の自己相関を含む)を考慮することができます。

これはあなたが望むことをするかもしれません。


提案をありがとう。この関数は確かに便利ですが、私の関心は特定のソリューションのコードというよりも統計的手法と方法論にあります。これは、メソッドや分析を実装する特定のパッケージではなく、サンプリング方法や再現性のある分析について尋ねることに似ています。それにもかかわらず、良いメソッドはパッケージになるはずです。:)
イテレーター
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.