回帰分析では、「データ生成プロセス」と「モデル」の違いは何ですか?
回帰分析では、「データ生成プロセス」と「モデル」の違いは何ですか?
回答:
その「技術」の定義は専門分野によって異なりますが、「モデル」が何を意味するのか、私たち全員が十分に理解しています。これをDGPと比較するために、私はGooglingの「データ生成プロセス」で上位5つのヒット(1人の著者と2人のヒットをカウント)を調べることから始めました。
紙の米空軍が実際にどのように作成し、物流のサポートでデータを。
「合成マイクロポピュレーション」がコンピューター「シミュレーションモデル」を介してどのように作成されるかについて、環境および計画Aで発表された論文の要約。
Webページ「合成データ生成」に。つまり、「特定のデータ特性がモデルに与える影響を調査する」ためのシミュレーションです。
「データベース内のデータは、基礎となるデータ生成プロセス(dgp)の結果である」と主張する、データマイニングの会議論文の要約。
書籍の章として関心のデータを特徴付ける「いくつかの形質転換から生じる根底[確率的】プロセスのVのT非観測することができるいくつかまたはすべて[うち] ...」
これらのリンクは、「データ生成プロセス」という用語のわずかに異なるが密接に関連した3つの用途を示しています。最も一般的なのは、統計シミュレーションのコンテキストです。その他は、進行中の状況(ロジスティックス)でデータが作成される実際の手段と、直接分析されることを意図していない進行中のデータ作成手順の確率モデルを指します。 最後のケースではテキストは差別化された観察不能な確率過程、それにもかかわらずされたモデル化から、数学的に分析される実際の数字を。
これらは、わずかに異なる2つの答えが受け入れられることを示唆しています。
シミュレーションのコンテキストまたは分析用の「合成」データの作成において、「データ生成プロセス」は、通常はコンピューターの擬似乱数ジェネレーターを使用して、後続の研究用のデータを作成する方法です。分析では、このDGPの数学的特性を記述するモデルを暗黙的に採用します。
統計分析のコンテキストでは、実際の現象(DGP)を分析対象の観測と区別したい場合があります。我々は持っているモデルの現象や観察だけでなく、2が接続されている方法のためのモデルの両方のために。
回帰では、次いで、DGPが通常どのようにデータのセット記述であろう = (X 1 I、X 2 I、... 、X P I、Y I)、iが= 1 、2 、... 、n個生成されると想定されます。 例えば、X j iは実験者が設定するか、何らかの方法で観察されてから、または、Y iの値に関連する。モデルは、これらのデータは数学的に関連することができたで可能な方法を説明します。例えば、私たちは、それぞれのことを言うかもしれないY iの期待値と確率変数であるXのβと分散σ 2未知のパラメータのためのβとσ。
Whuberの答えは優れていますが、データの推論的探索に適したモデルであるために、統計モデルがあらゆる点でデータ生成モデルに似ている必要はないという事実を強調する価値があります。LiuとMengは、最近のarXived論文(http://arxiv.org/abs/1510.08539)でその点を非常に明確に説明しています。
誤解1.確率モデルは、データの生成を記述する必要があります。
)。既知の(ただし非常に複雑な)決定論的パターン(Kennedy and O'Hagan、2001; Conti et al。、2009)に従って確率論的パターンを使用してデータを記述するコンピューター実験を含むアプリケーションほど、この点は明確ではありません。生成モデルではなく、記述モデルが必要です。この点の詳細については、Lehmann(1990)、Breiman(2001)、およびHansen and Yu(2001)を参照してください。
DGPは仮想現実であり、シミュレーションのためのユニークなレシピです。モデルは、DGPのコレクション、またはデータが生成された可能性のある方法です。
Russell Davidsonによるこのミニコースの最初のページを読んでください。
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf