どの条件の下で、ベイジアンおよび頻度点推定量が一致しますか?


17

平坦な事前分布では、ML(頻度-最大尤度)とMAP(ベイジアン-最大事後確率)推定量は一致します。

ただし、より一般的には、損失関数のオプティマイザーとして導出されたポイント推定量について話します。すなわち

X

x^(.)=argminE(L(Xx^(y))|y) (Bayesian) 
x^(.)=argminE(L(xx^(Y))|x)(Frequentist)

ここで、は期待値演算子、は損失関数(ゼロで最小化)、は推定であり、パラメーターデータ与えられ、ランダム変数は大文字で示されます。 L XY のY XELx^(y)yx

誰が推定値が一致する、および pdf、線形性および/または不偏性に関する条件を知っていますか?x yLxy

編集

コメントで述べたように、フリークエンティストの問題を意味のあるものにするためには、偏りのない公平性の要件が必要です。平坦な事前分布も一般的です。

いくつかの回答によって提供される一般的な議論に加えて、質問は実際の例を提供することでもあります。重要なのは線形回帰から来ると思う:

  • OLS、は青(ガウス-マルコフの定理)、つまり、線形不偏推定量の間の頻度MSEを最小化します。x^=(DD)1Dy
  • 場合はガウスであり、従来は、平坦であるは、凸」損失関数のベイジアン平均損失を最小化する「事後」平均です。X = D ' D - 1つのD ' Y(X,Y)x^=(DD)1Dy

ここでは、はそれぞれ、頻度論者/ベイジアン語のデータ/設計行列として知られているようです。D


私はあなたが答えがフラットな事前を仮定することを望んでいると思いますか?そうでなければ、当然のことながら、興味深い一般的なケースで推定値が同じであると合理的に予想される方法はありません。
user56834

2
あなたがそれをもたらす一般に答えるために、単純な問題ではないですが、現在は本当に暑い研究テーマである、この領域でインスタンスジュディス・ルソーの作品のために参照してください。ceremade.dauphine.fr/~rousseau/publi.html
イェレミアスK

@JeremiasK、おそらくあなたは答えでそれについて何かを説明できますか?
user56834

1
@ Programmer2134素材に十分な快適さを感じればいいのですが、そうではありません。彼らがしていることは、CLTのベイジアン対応物を導き出していることを知っています。特定の「事後集中率」を使用して、サンプルサイズを大きくするにつれて、パラメーター事後がパラメーター空間のある点に集中する速度を教えてから、基本的に終了しますベイジアン推定量の頻繁なタイプの一貫性保証を見つけます。
ジェレミアスK

回答:


7

この質問は興味深いが、頻繁な推定量の概念が正確にされない限り、いくぶん希望がない。それは間違いなく質問セットではありません 最小化への答えがあるのですべてのためのをProgrammer2134の回答で指摘されているように。基本的な問題は、推定問題に単一の頻度推定器が存在せず、補足制約または推定器のクラスを導入しないことです。それらがなければ、すべてのベイズ推定量はまた、頻繁な推定量です。

x^(.)=argminE(L(x,x^(Y))|x)
x^(y)=xy

コメントで指摘されているように、不偏性はそのような制約かもしれません。その場合、ベイズ推定量は除外されます。しかし、この頻度主義の概念は、次のような他の頻度主義の概念と衝突します。

  1. 容認性、ジェームズスタイン現象は、不偏推定量が許容できない場合があることを示したため(損失関数と問題の次元に依存);
  2. 不偏性は変換の下で保持されないため、再パラメーター化の下での不変性。

プラス不偏性は、制限されたクラスの推定問題にのみ適用されます。これにより、特定のパラメーターまたは変換の不偏推定量のクラスは、ほとんどの場合空になります。θh(θ)

別の頻繁な概念である許容性といえば、許容可能な推定量がベイズ推定量のみである設定が存在します。このタイプの設定は、1950年代にAbraham Waldによって確立された完全なクラス定理に関連しています。(適切な適切なHaar測定下のベイズである最良の不変推定量にも同じことが当てはまります。)


1
最小化問題が明確に定義され、縮退しないように(偏りのないことを必要とする)、ベイジアンに近い推定器のクラスを制限する他の標準的な方法はありますか?
-user56834

3

一般に、縮退フラット事前分布を使用しない限り、頻繁な推定量とベイズ推定量は一致しません。主な理由は次のとおりです。頻度の高い推定者は、偏りがないように努力することがよくあります。たとえば、フリークエンシーは、しばしば最小分散不偏推定量(http://en.wikipedia.org/wiki/Minimum-variance_unbiased_estimator)を見つけようとします。一方、すべての非縮退ベイズ推定量にはバイアスがかけられます(バイアスの頻繁な意味で)。たとえば、http: //www.stat.washington.edu/~hoff/courses/581/LectureNotes/bayes.pdfの定理5を参照してください

要約すると、人気の高い頻度推定器のほとんどは偏りがないように努めていますが、ベイズ推定器はすべて偏っています。したがって、ベイズと頻度の高い推定量が一致することはほとんどありません。


5
「ポピュラーな頻出推定量のほとんど」がMLであり、偏りがちである(パラメーター化に依存する)ことを考えると、これらの主張の正確性について疑問に思います。さらに、優れたフリークエンティストは、損失と許容性を深く懸念しています。この理論の重要な部分は、許容可能な手順がベイズの手順に由来することを認識しています。少なくともその広い意味では、頻度論の中心はベイズの推定量に依存しています。「頻繁に」、「ほとんど」、「まれに」についてより明確にすることができれば、あなたの視点に説得され、証拠でそれを裏付けることができます。
whuber

@whuber良い点-私の答えはおそらく少し単純だった。実際の頻度は、偏った手順(たとえば、L1またはL2のペナルティ付き回帰)を使用する傾向があるか、正式にベイジアン手順を使用することさえあります。ただし、偏りのない推定量は、ほとんどの頻度分析の出発点だと思います。たとえば、Lehmann&Casellaによるポイント推定の理論の最初の肉の章(頻繁な推定に関する標準テキストの1つ)は、すべて公平性に関するものです。
ステファンウェイガー

5
まあ、OK(+1)。しかし、最後の議論はおもしろいと思います。結局のところ、本はどこかから始めなければならず、通常、その出発点はその実用的な重要性ではなく、そのシンプルさとアクセシビリティのために選ばれます。同じ理由で、ほとんどの現代の数学は主に論理と集合論に関係していると主張できます。なぜなら、それらは多くの数学の教科書の最初の章を形成することが多いからです!統計的実践のより良い反映は、Lehmann&Casellaの後半くらいかもしれません。そこで議論されていることを見てください:-)。
whuber

「縮退フラット優先を使用しない限り」。さて、これは考える特別な興味深いケースですね。
user56834

また、彼の質問は、実際に使用される推定量が一致するかどうかではなく、特定の条件下で理論的に一致するかどうかです。
-user56834

3

これは完全な答えではありませんが、これら2つのの見た目は非常に似ていますが、根本的な違いがあります。ベイジアン式は単一の値(つまり、に応じ)。argminx^(y)y

しかしFrequentist一つは、すべての値のための単一の値に対して損失関数を最小化するために持っている知らなくても、取ることができる。これは、関数最小値はに依存するためですを知らなくても最小化する必要があります。( wrtを単純に最小化する場合、単純に最小化値を取得することに注意してください。)したがって、周波数主義の問題は未定義です。明確に定義することさえ可能かどうかはわかりません。X F X X= E L X - XY | X X X F X XX X = Xxxf(x,x^)=E(L(xx^(Y))|x)xxf(x,x^)x^x^=x


1
良い点。私はあなたが頻繁な問題について正しいと思う。適切にレンダリングする方法は、推定量のクラスを制限することです。Lehmann&Casellaから:「これまで、θのすべての値でリスクR(θ、δ)を最小化する推定量を見つけることに関心がありました。これは、推定量のクラスを、不偏性または等分散性として。」
パトリック

1

この質問に対する答えはないかもしれません。

別の方法として、手元の問題について2つの推定値を効率的に決定する方法を求めることもできます。ベイジアン法は、この理想にかなり近いものです。しかし、ミニマックス法を使用して頻出点推定値を決定できたとしても、一般に、ミニマックス法の適用は依然として困難であり、実際には使用されない傾向があります。

他の代替案は、ベイジアンおよび頻繁な推定量が「一貫した」結果を提供する条件に関する質問を言い換え、それらの推定量を効率的に計算する方法を特定することです。ここで、「一貫性のある」とは、ベイジアンおよび頻繁な推定量が共通の理論から導出され、最適化の同じ基準が両方の推定量に使用されることを意味します。これは、ベイジアン統計や頻出統計に反対しようとすることとは非常に異なり、上記の質問を不必要にする可能性があります。可能なアプローチの1つは、特定のサイズの損失を最小化する決定セット、つまり、

シェーファー、チャドM、フィリップBスターク。「最適な予想サイズの信頼領域の構築。」Journal of the American Statistical Association 104.487(2009):1080-1089。

頻度とベイジアンの両方の場合に、優先的に観測とパラメーターを大きな点ごとの相互情報で含めることにより、これが可能であることがわかります。決定されるセットは同一ではありません。質問が異なるためです。

  • 真のパラメーターとは無関係に、間違った決定を下すリスクを制限します(頻繁な見解)
  • いくつかの観察結果を踏まえて、決定セットに間違ったパラメーターを含めるリスクを制限します(ベイジアンの見解)

ただし、フラットな事前分布が使用されている場合、セットは大きく重なり、状況によっては同一になります。アイデアは、効率的な実装と一緒に、より詳細に議論されています

Bartels、Christian(2015):一般的で一貫した自信と信頼できる地域。figshare。 https://doi.org/10.6084/m9.figshare.1528163

有益な事前確率の場合、決定セットはさらに逸脱します(よく知られているように、上記の質問および回答で指摘されました)。ただし、一貫性のあるフレームワーク内で、必要な頻度の範囲を保証するが、事前の知識を考慮した頻度の高いテストを取得します。

Bartels、Christian(2017):頻繁なテストでの事前知識の使用。figshare。 https://doi.org/10.6084/m9.figshare.4819597

提案された方法には、マージナリゼーションの効率的な実装がまだありません。


それらが「一貫性がある」場合、より具体的に質問してください。
user56834

@ Programmer2134。おかげで、答えを明確にしてみました。
user36160
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.