回帰分析では、データ生成プロセスとモデルの違いは何ですか?


19

回帰分析では、「データ生成プロセス」と「モデル」の違いは何ですか?


1
データ生成プロセスは決して知られていません。データ生成プロセスを十分に近似することを期待してモデルを選択します。これは可能な答えの1つです。より多くのコンテキストを提供すると役立つので、どのような種類の答えを探しているかがより明確になります。チャットをご覧ください。現在進行中のジャーナルクラブは、この問題が提起された記事について議論しています。
mpiktas

3
「データ生成プロセス」と「モデル」の両方がさまざまな作成者によってさまざまな方法で使用されているため、この質問への答えはさまざまです。@Weijie、あなたは特別な参考文献を持っていますか?
whuber

回答:


15

その「技術」の定義は専門分野によって異なりますが、「モデル」が何を意味するのか、私たち全員が十分に理解しています。これをDGPと比較するために、私はGooglingの「データ生成プロセス」で上位5つのヒット(1人の著者と2人のヒットをカウント)を調べることから始めました。

  1. 紙の米空軍が実際にどのように作成し、物流のサポートでデータを。

  2. 「合成マイクロポピュレーション」がコンピューター「シミュレーションモデル」を介してどのように作成されるかについて、環境および計画Aで発表された論文の要約

  3. Webページ「合成データ生成」に。つまり、「特定のデータ特性がモデルに与える影響を調査する」ためのシミュレーションです。

  4. 「データベース内のデータは、基礎となるデータ生成プロセス(dgp)の結果である」と主張する、データマイニングの会議論文の要約

  5. 書籍の章として関心のデータを特徴付ける「いくつかの形質転換から生じる根底[確率的】プロセスのVのT非観測することができるいくつかまたはすべて[うち] ...」WtVt

これらのリンクは、「データ生成プロセス」という用語のわずかに異なるが密接に関連した3つの用途を示しています。最も一般的なのは、統計シミュレーションのコンテキストです。その他は、進行中の状況(ロジスティックス)でデータが作成される実際の手段と、直接分析されることを意図していない進行中のデータ作成手順の確率モデルを指します。 最後のケースではテキストは差別化された観察不能な確率過程、それにもかかわらずされたモデル化から、数学的に分析される実際の数字を。

これらは、わずかに異なる2つの答えが受け入れられることを示唆しています。

  1. シミュレーションのコンテキストまたは分析用の「合成」データの作成において、「データ生成プロセス」は、通常はコンピューターの擬似乱数ジェネレーターを使用して、後続の研究用のデータを作成する方法です。分析では、このDGPの数学的特性を記述するモデルを暗黙的に採用します。

  2. 統計分析のコンテキストでは、実際の現象(DGP)を分析対象の観測と区別したい場合があります。我々は持っているモデルの現象や観察だけでなく、2が接続されている方法のためのモデルの両方のために。

回帰では、次いで、DGPが通常どのようにデータのセット記述であろう = X 1 IX 2 I... X P IY Iiが= 1 2 ... n個生成されると想定されます。 例えばX j iは実験者が設定するか、何らかの方法で観察されてからバツYバツ1バツ2バツpY=12nバツjまたは、Y iの値に関連するモデルは、これらのデータは数学的に関連することができたで可能な方法を説明します。例えば、私たちは、それぞれのことを言うかもしれないY iの期待値と確率変数であるXのβと分散σ 2未知のパラメータのためのβσYYバツβσ2βσ


「原因」または「関連」という言葉を書きます。これについて質問があります。あなたの答えから、DGPの概念は因果関係を意味しないと思われます。しかし、この「関係」は相関関係(または任意のタイプの関連性)以上のものですか?:この私の関連する質問も参照してくださいstats.stackexchange.com/questions/399671/...
マーコウィッツ

@markowitz「相関」とは、厳密に言えば、二変量確率変数の2番目の瞬間を指します。私は、「(統計的に)独立していない」という広い意味で「関連」を使用します。
whuber

私は知っており、まさにこの理由のために、「または(統計のみの)あらゆるタイプの関連」と述べました。次のように質問を繰り返すことはできますか?しかし、この「関係」は連想以上のものですか?DGPの同義語として使用されることもある「真のモデル」の概念から始まり、それはさらに何かのように思われます。もしそうなら、私はそれが何であるかを正確に理解していません。私の以前のリンクは例を示します。
マルコウィッツ

@markowitzあなたが何を求めようとしているのか理解できません。それは、あなたが「関係」や「連想」によって正確に何を意味するのかわからないからかもしれません。私はあなたのリンクを見ましたが、異常な英語の用法は私にとって意味のあるものを伝えません。
whuber

私の英語がすみません。リンクされた質問をより明確な意味で修正しようとしました。理解できることを願っています。
マルコウィッツ

4

DGPは真のモデルです。このモデルは、私たちが最高のスキルを使用して、自然の真の状態を表すために試みたものです。DGPは「ノイズ」の影響を受けます。ノイズにはさまざまな種類があります。

  1. 1回限りの介入
  2. レベルシフト
  3. トレンド
  4. 季節性の変化
  5. モデルパラメーターの変更
  6. 分散の変化

これら6つの項目を制御しないと、真のDGPを識別する能力が低下します。


4

Whuberの答えは優れていますが、データの推論的探索に適したモデルであるために、統計モデルがあらゆる点でデータ生成モデルに似ている必要はないという事実を強調する価値があります。LiuとMengは、最近のarXived論文(http://arxiv.org/abs/1510.08539)でその点を非常に明確に説明しています。

誤解1.確率モデルは、データの生成を記述する必要があります。

θ)。既知の(ただし非常に複雑な)決定論的パターン(Kennedy and O'Hagan、2001; Conti et al。、2009)に従って確率論的パターンを使用してデータを記述するコンピューター実験を含むアプリケーションほど、この点は明確ではありません。生成モデルではなく、記述モデルが必要です。この点の詳細については、Lehmann(1990)、Breiman(2001)、およびHansen and Yu(2001)を参照してください。


+1。特に、データの記述モデルと生成モデルの区別が気に入っています。
whuber

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.