誤った仕様のもとでの統計的推論


14

統計的推論の古典的な扱いは、正しく指定された統計が使用されるという仮定に依存しています。つまり、観測データを生成した分布は統計モデル一部です: ただし、ほとんどの場合、これが本当に正しいとは限りません。正しく指定された仮定を破棄すると、統計的推論手順はどうなるのだろうか。P(Y)yM

P(Y)M={Pθ(Y):θΘ}

私は1982年WhiteがML推定値に関する誤った仕様の下でいくつかの仕事を見つけました。その中で、最尤推定量は、分布 は、統計モデル内のすべての分布と真の分布\ mathbb {P} ^ *からKL発散を最小化します。

Pθ1=argminPθMKL(P,Pθ)
P

信頼セット推定量はどうなりますか?信頼度セット推定量を再現できます。してみましょう δ:ΩY2Θセットの推定、可能ΩYサンプルスペースとである2Θパラメータ空間での電力セットΘ。私たちが知りたいのは、\ deltaによって生成されたセットδが真の分布\ mathbb {P} ^ *を含むイベントの確率P、つまり

P(P{Pθ:θδ(Y)}):=A.

ただし、実際の分布\ mathbb {P} ^ *はわかりませんP。正しく指定された仮定は、PMます。ただし、モデルのどの分布であるかはまだわかりません。ただし、

infθΘPθ(θδ(Y)):=B
は確率Aの下限ですA。方程式Bは、信頼セット推定量の信頼レベルの古典的な定義です。

正しく指定された仮定を破棄する場合、Bは必ずしもAの下限ではなく、A実際に関心のある用語は、もはやです。確かに、モデルの指定が間違っていると仮定すると、ほとんどの現実的な状況では間違いなくAは0です。これは、真の分布Pが統計モデル\ mathcal {M}に含まれていないためMです。

別の観点から、モデルが誤って指定されている場合にBが何にB関連するかを考えることができます。これはより具体的な質問です。モデルの指定が間違っている場合、Bにはまだ意味がありますか。Bそうでない場合、なぜパラメトリック統計に悩まされるのでしょうか?

White 1982には、これらの問題に関するいくつかの結果が含まれていると思います。残念なことに、数学的な背景がないため、そこに書かれていることをあまり理解できません。


1
この質問と答えstats.stackexchange.com/questions/149773/…を見つけました。よく似ています。これらの本を読むと、おそらくこの質問の答えにつながるでしょう。ただし、すでにこれを行った人による要約は非常に役立つと思います。
ジュリアンカール

2
この質問がこれ以上興味を引かないのは残念です。ジュリアンのリンクには素晴らしい資料がありますが、この問題についてもっと考えてみたいと思います。
フロリアンハーティグ

1
よく行われるのは、統計モデルが正しいと仮定して、検定統計量の分布が帰無仮説の下で計算されることです。p-値が十分に低い場合、これは偶然によるものであるか、nullが偽であると結論付けられます。ただし、モデルの指定が間違っている場合、これも論理的に描くことができる結論です。他のすべての推論にも同じことが当てはまります。モデルが誤って指定されているという事実は、別の結論を提供します。これは、私がSpanosの作品を読んだことに基づいて考えている方法です。
トビー

基本的に、すべてのモデルが間違っています。それは、定量的に誤仕様を開発するのに役立ちます。画像の場合、仕様の誤りは登録の誤りです。たとえば、十分な数のカウントのエラーをカウントする場合(放射性崩壊など)、エラーはポアソン分布になります。その場合、時系列の位置ずれは画像の平方根のy軸誤差であり、ノイズはそれらの同じ単位になります。ここに例。
カール

回答:


2

ましょう iid確率変数列の実現であると推定される観測データも共通確率密度関数とシグマ有限対策に関して定義。密度は、データ生成プロセス(DGP)密度と呼ばれます。y1,,ynY1,,Ynpeνpe

研究者の確率モデルでは、 は、パラメータベクトルインデックス付けされた確率密度関数のコレクションです 。各密度は、共通のシグマ有限測度に関して定義されていると仮定します(たとえば、各密度は同じサンプル空間確率質量関数である可能性があります)。M{p(y;θ):θΘ}θMνS

データを実際に生成した密度を、データの確率モデルとは概念的に区別することが重要です。従来の統計処理では、これらの概念の慎重な分離は無視されるか、行われないか、確率モデルが正しく指定されていると最初から想定されています。pe

に関して正しく指定されたモデルは、ほぼどこでもモデルとして定義されます。場合 に関してmisspecifiedさ確率モデルが正しく指定されていない場合には、この対応します。MpepeM νMpe

確率モデルが正しく指定されている場合は、そこに存在するAパラメータ空間におけるよう -almostどこでも。このようなパラメータベクトルは、「真のパラメータベクトル」と呼ばれます。確率モデルの指定が間違っている場合、真のパラメーターベクトルは存在しません。θΘpe(y)=p(y;θ) ν

Whiteのモデルの誤仕様フレームワーク内での目標は、を最小化 するパラメーター推定を見つけることいくつかのコンパクトパラメータ空間上。ユニークな厳密グローバル最小化、と仮定される、期待値のに内部に配置されている。確率モデルが正しく指定されている幸運な場合、は「真のパラメーター値」として解釈される場合があります。θ^n Nθ1/NΣ N iが= 1つのログPをYIθΘθ * NΘΘθ*^n(θ)(1/n)i=1nlogp(yi;θ)Θθ^nΘΘθ

確率モデルが正しく指定されている特殊なケースでは、はおなじみの最尤推定値です。確率モデルが正しく指定されているという絶対的な知識がない場合、は準最尤推定値と呼ばれ、目標はを推定することです。幸運になり、確率モデルが正しく指定されると、準最尤推定値は特別な場合としておなじみの最尤推定値に減少し、 が真のパラメーター値になります。θ^n θ nはθ*θ*θ^nθθ

White(1982)フレームワーク内の一貫性は、が必ずしも真のパラメーターベクトルである必要はなく、への収束に対応します。Whiteのフレームワーク内では、δによって生成されたセットがTRUE分布P *を含むイベントの確率を推定することはありません。代わりに、δによって生成されたセットが密度指定された分布を含むイベントの確率である確率分布P **を常に推定し ます。θθp(y;θ)

最後に、モデルの仕様ミスに関するいくつかのコメント。誤って指定されたモデルが非常に有用で、非常に予測的である例を見つけるのは簡単です。たとえば、分散が非常に小さいが、環境内の実際の残留誤差がガウスではないガウス残留誤差項を持つ非線形(または線形)回帰モデルを考えます。

また、正しく指定されたモデルが役に立たず、予測的でない例も簡単に見つかります。たとえば、明日の終値が今日の終値と非常に大きな分散をもつガウスノイズの加重和であると予測する株価を予測するためのランダムウォークモデルを考えてみましょう。

モデルの誤仕様フレームワークの目的は、モデルの有効性を確保することではなく、信頼性を確保することです。つまり、パラメーターの推定、信頼区間、仮説検定などに関連するサンプリング誤差が、モデルの仕様の少量または大量の存在にもかかわらず正しく推定されることを確認します。準最尤推定値は、負の対数尤度関数の1次導関数と2次導関数の両方に依存する共分散行列推定器を使用して、を中心とする漸近的に正規です。幸運に恵まれ、モデルが正しい特別な場合、すべての式は、目標が「真の」パラメーター値を推定することであるおなじみの古典的な統計的枠組みに還元されます。θ


3

まず、これは本当に魅力的な質問です。それを投稿してくれたJulianに称賛を。私が見るように、この種の分析で直面する基本的な問題は、サブセットの推論が、モデルの確率測定の制限されたクラスに対する推論であるということです。真のモデルを推測する確率は、モデルの下で、最初に仕様の誤りがあるかどうかというささいな問題まで縮退します。ホワイトは、適切な距離メトリックを使用して、モデルが真の確率測定にどれだけ近づくかを調べることで、これを回避します。これにより、彼は確率尺度。これは最も近いプロキシです。ΘMPθ1Pで。を見るこの方法は、信頼セットに関する質問に関連する興味深い量を提供するために拡張できます。MPθ1

これに到達する前に、分析で値とが数学的に明確に定義されている(つまり、存在している)ことを意味します。それは必ずしも非常に有用な意味ではありません。分析の値は明確に定義されています。推定された確率測度のセットに真の確率測度が含まれるのは、真の確率です。あなたはがを意味することは正しい、つまり、この量は仕様の間違いの場合に些細なことを意味する。ホワイトのリードに続いて、量を見るとおそらくもっと面白いでしょう。AA P *M A = 0BAPMA=0

AA(Y)P(Pθ1{Pθ|θδ(Y)}).

ここでは、の内部オカレンスをモデル最も近いプロキシに置き換えたため、。ここで、推定された確率測度のセットがモデル内の真の確率測度に最も近いプロキシを含む真の確率を求めています。モデルの仕様の誤りは、この量をトリビアライズしなくなりました。これは、構築によってがあるためです。M P * M P θ 1 MPMPMPθ1M

Whiteは、MLEが一貫した推定量であることを示すことにより、仕様の誤りを分析します。これは、仕様が間違っていても、モデル内の真の確率測度に最も近いプロキシを正しく推定できることを示すため、貴重です。信頼セットに関する自然なフォローアップの質問は、特定の推論方法が量下限を課すか、収束が δ A * NPθ1δAn。(正の)下限または(正の)収束の結果を確立できる場合、これにより、仕様が間違っていても、ある程度の確率レベルで最も近いプロキシを正しく推定できるという保証が得られます。ホワイトが行った分析の種類に従って、これらの問題を調査することをお勧めします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.