モデルが間違っているのに、なぜベイジアンである必要があるのですか?


68

編集:簡単な例を追加しました:平均の推論。また、信頼区間と一致しない信頼区間が悪い理由を少し明らかにしました。Xi

かなり敬devなベイジアンの私は、ある種の信仰の危機の真っただ中にいます。

私の問題は次のとおりです。IIDデータを分析したいとします。私がやることは:Xi

  • 最初に、条件付きモデルを提案します:

    p(X|θ)
  • 次に、上の前を選択し: P θ θ

    p(θ)
  • 最後に、ベイズの規則を適用し、事後を計算します:(または計算できない場合は近似)、についてのすべての質問に答えますθp(θ|X1Xn)θ

これは賢明なアプローチです。データ真のモデルが条件付きの「内部」にある場合(値対応する場合)、統計的決定理論を呼び出して、メソッドが許容可能であると言うことができます(Robert詳細については「ベイジアン選択」、「統計のすべて」も関連する章で明確に説明しています)。θ 0をXiθ0

しかし、誰もが知っているように、私のモデルが正しいと仮定することはかなり慢です。なぜ私が検討したモデルの箱の中に自然がきちんと収まるのでしょうか?これは、データの実際のモデルと仮定することははるかに現実的である異なりのすべての値に対して。これは通常、「誤って指定された」モデルと呼ばれます。p X | θ θptrue(X)p(X|θ)θ

私の問題は、このより現実的な誤って指定されたケースでは、単純に最尤推定量(MLE)を計算するのと比べて、ベイジアンであること(つまり、事後分布の計算)についての良い議論がないことです:

θ^ML=argmaxθ[p(X1Xn|θ)]

実際、Kleijn、vd Vaart(2012)によると、誤って指定された場合、事後分布は次のとおりです。

  • として、を中心とするディラック分布に収束しθ M Lnθ^ML

  • 事後の信頼できる区間が信頼区間に一致することを保証するために、正しい分散がありません(2つの値が偶然同じでない限り)。(信頼区間は明らかにベイジアンが過度に気にしないものですが、これは定性的には、事後分布が本質的に間違っていることを意味します。これは、信頼区間が正しいカバレッジを持たないことを意味します)θ

したがって、追加のプロパティがない場合、計算プレミアム(一般にベイジアン推論はMLEよりも高価です)を支払います。

したがって、最後に、私の質問:モデルが誤って指定されている場合に、より単純なMLEの代替案に対してベイジアン推論を使用するための理論的または経験的な議論はありますか?

(私の質問はしばしば不明瞭であることを知っているので、あなたが何かを理解しないならば、私に知らせてください:私はそれを言い換えようとします)

編集:簡単な例を考えてみましょう:ガウスモデルの下での平均を推測します(さらに単純化するために既知の分散を使用)。ガウス事前分布を考えます。事前平均、事前の逆分散でます。してみましょうの経験的な平均こと。最後に注意してください:。 σ μ 0 β 0をˉ X X I μ = β 0 μ 0 + NXiσμ0β0X¯Xiμ=(β0μ0+nσ2X¯)/(β0+nσ2)

事後分布は次のとおりです。

p(θ|X1Xn)exp((β0+nσ2)(θμ)2/2)

正しく指定された場合(実際にガウス分布を持っている場合)、この事後には次の素晴らしいプロパティがありますXi

  • が共有モデルが事前分布から選択される階層モデルから生成される場合、事後信頼区間は正確なカバレッジを持ちます。データに条件付きで、が任意の間隔にある確率は、事後がこの間隔に帰する確率に等しい θXiθ

  • 事前分布が正しくない場合でも、信頼できる間隔は、後方への事前の影響がなくなる限界で正しいカバレッジを持ちます。n

  • 事後はさらに良好な周波数特性を持ちます:事後から構築されたベイズ推定量はすべて許容可能であることが保証され、事後平均は(Cramer-Raoの意味で)平均の効率的な推定量であり、信頼できる間隔は漸近的に信頼区間です。

誤って指定された場合、これらのプロパティのほとんどは理論によって保証されません。アイデアを修正するために、実際のモデルは、学生分布であると仮定しましょう。保証できる唯一の特性(Kleijn et al)は、事後分布が限界実平均に集中することです。一般に、すべてのカバレッジプロパティは消滅します。さらに悪いことに、その限界では、カバレッジプロパティが根本的に間違っていることを保証できます。事後分布は、空間のさまざまな領域に間違った確率を帰します。X i n XiXin


2
さて、ベイジアンアプローチは正則化しています。それは、過剰適合を防ぐための何かです-モデルが誤って指定されているかどうか。もちろん、それは、正則化された古典的アプローチ(投げ縄、リッジ回帰、エラスティックネットなど)に対するベイジアン推論の引数に関する関連する質問につながります。
S. Kolassa -モニカ元に戻し

3
この作品とその親sに興味があるかもしれません。
ドゥーガル

7
誤った尤度関数の使用に関してモデルが誤って指定されている場合、MLEとベイジアンの両方の推定値が間違っていることになります...
ティム

5
@Tim:誤って指定された場合、MLEとベイジアンの推論は無意味ではありません。両方とも条件付きモデル内のデータの最適なアカウントを提供するパラメーター値を復元しようとします。より正確には、はです。ここでは、Kullback Leibler発散です。穏やかな仮定の下では、MLEとベイズ推定の両方を正しく識別し、この十分な量のデータを提供する場合θ~0KL[PXPX|θ]θ 0θ~0KL[p(X),p(X|θ)]θ~0
ギヨームDehaeneを

3
@amoebaベイジアンのハードコアな外観を想像し、コマンダンテチェのように振る舞います
Aksakal

回答:


31

私のデータセットが対象について知られているすべてではない場合、ベイズのアプローチを検討し、その外生的知識を何らかの形で私の予測に組み込みたいと思います。

例えば、私のクライアントは、ポートフォリオのローンのデフォルトの予測を望んでいます。彼らは、数年間の四半期の履歴データを持つ100件のローンを持っています。延滞(遅延支払い)の発生がいくつかあり、いくつかのデフォルトがありました。このデータセットで生存モデルを推定しようとすると、推定するデータは非常に少なく、予測するには不確実性が大きすぎます。

一方、ポートフォリオマネージャーは経験豊富な人々であり、何人かは借り手との関係の管理に何十年も費やした可能性があります。彼らはデフォルト率がどうあるべきかについてのアイデアを持っています。だから、彼らは合理的な事前を考え出すことができます。数学の特性があり、知的に魅力的見える事前分布ではなく、注意してください。私は彼らとチャットし、彼らの経験と知識をそれらの事前の形で抽出します。

これで、ベイジアンフレームワークは、事前知識という形で外生的知識とデータを結び付け、純粋な定性的判断と純粋なデータ主導の予測の両方よりも優れた事後性を得るためのメカニズムを私に提供します。これは哲学ではなく、私はベイジアンではありません。私は、ベイジアンツールを使用して、専門知識をデータ駆動型の推定に一貫して取り入れています。


3
とてもいい点です。ベイジアン推論は、あなたが提示したようなタスクを正確に解決するためのフレームワークを提供します。ありがとうございました。
ギヨーム・デハーン

5
これはベイジアンモデリングの一般的な議論ですが、誤って指定されたモデルの特定のケースにどのように関係しますか?接続が表示されません。
リチャードハーディ

4
まあ、それは私の質問に関連しています:間違って指定された場合でも、ベイジアン推論は、MLEメソッドよりも前の方法でより良い(つまり、より原則的な方法で)定性情報を処理します。これは、ベイジアン推論がMLEよりもわずかに優れている理由に関する経験的議論の形式です。
ギヨーム・デハーン

2
@Aksakal、モデルが誤って指定されているかどうかは重要ではありません。私が心配しているのは、あなたが質問に答えないことです。(OPが同意しない場合、彼は質問を定式化するのに貧弱な仕事をしたと思います。)しかし、最近の編集があったようで、おそらく質問は今までに変更されたでしょう。
リチャードハーディ

4
@RichardHardy、私の答えは、条件付きモデルが誤って指定されている場合、サンプルサイズが大きくなると事前を圧倒し、後部が間違ったモデルに押しやられるという考えによって駆動されるOPの信仰の危機の中心に行くと思います。このケースでは、なぜベイジアンに悩まされているのか、MLEをまっすぐにするだけではないのか、と彼は尋ねます。私の例は明らかに哲学的ではありませんが、実用的です。多くの場合、有限のサンプルではなく、小さなサンプルを扱います。そのため、データは、後部を前部から遠ざけてドラッグすることはありません。これは、外生的な知識を表します。
アクサカル

25

非常に興味深い質問...答えがないかもしれません(しかし、それはそれをより面白くしません!)

すべてのモデルが間違っているというミームについてのいくつかの考え(そして私のブログエントリへの多くのリンク!):

  1. 事実上、仮想モデルはほとんど常に、そして取り返しのつかないほど間違っていますが、これが最善である場合、このモデルに関して効率的または一貫した方法で行動することは依然として理にかなっています。結果の推論により、実際のデータ生成モデル(存在する場合)に「最も近い」形式モデルの評価が生成されます。
  2. モデルなしで実行できるベイジアンアプローチが存在します。最新の例は、Bissiri et al。私のコメント付き)およびワトソンとホームズジュディスルソーと話し合いました);
  3. 接続された方法では、M-open推論を扱うベイジアン統計のブランチ全体が存在します。
  4. そして、私は多くのことを好きでまた別の方向であるSafeBayesのアプローチピーターグリュンワルド元見込みの電源として表現ダウン傾斜バージョンの可能性を置き換えるために、アカウントのモデルmisspecificationになります。
  5. ゲルマンとヘニングの非常に最近のRead Paperは、この問題に対処していますが、状況は限定的です(そして、ブログにコメントを追加しました)。あなたの質問に関するエントリから議論のための資料を集めることができると思います。
  6. ある意味で、ベイジアンは統計学者とモデラーの中でこの側面について最も心配するべきではありません。サンプリングモデルはいくつかの事前の仮定の1つと見なされ、結果はそれらすべての事前の仮定に関連するか、相対的であるためです。

2
これについてあなたの意見があることはとてもうれしいです。最初のポイントは直感的に理解できます。モデルが間違っていなければ、推論の結果は問題ないはずです。しかし、そのような結果を誰かが証明したことはありますか(または経験的に問題を調査しましたか)?あなたの最後のポイント(私は誤解しているかもしれません)は、私を困惑させます。サンプリングモデルは重要な選択です。また、選択も行うという事実は、サンプリングモデルの選択におけるエラーがモデル全体を汚染できないことを意味するものではありません。参照と素晴らしいブログをありがとう。
ギヨーム・デハーン

ポイント1では、なぜベイジアンモデルを平均化しないのですか?「最高の」モデルを使用するのはなぜですか?
イニスフリー

@innisfree:それはすべてあなたが結果をどうするかによって異なります。私はモデルの平均化と最良のモデルについて何の宗教も持っていません。
西安

1
モデルの不確実性を平均することと、「最良の」モデルのみを選択することの決定論的側面があることを示唆しているようです。確かに、モデルの不確実性を含むすべての不確実性を首尾一貫して組み込むことは、常に有利です。つまり、より良い意思決定を支援します。
イニスフリー

2
ノンパラメトリックに対する私の主な異論は実用的です。それらは、より単純な代替手段と比較して、数桁も計算コストが高くなります。さらに、2つの以前のディストリビューションが共通のサポートを持つことはほとんど不可能であるため、ノンパラメトリックでも問題が発生しませんか?つまり、事前確率は大きな影響を与え、異なる事前確率から開始する場合、ベイジアン統計学者が同意することは(ほとんど)不可能であることを意味します。
ギヨーム・デハーン

12

編集: OPの要求に応じて、本文にこのペーパーへの参照を追加しました。


ここでは、単純な経験的ベイジアンとして答えを出しています。

まず、事後分布を使用すると、単純なMLEでは実行できない計算を実行できます。最も単純なケースは、今日の後部が明日の前部であることです。ベイジアン推論は、当然ながら順次更新、またはより一般的にはオンラインまたは複数の情報ソースの遅延組み合わせを可能にします(事前の組み込みは、そのような組み合わせの1つの教科書インスタンスです)。非自明な損失関数を使用したベイジアン決定理論も別の例です。そうでなければ何をすべきかわかりません。

第二に、この答えで、不確実性の定量化は不確実性よりも一般的に優れているというマントラ、定理(あなたが言及したように、私が知る限り)を保証しないため、事実上経験的な問題であると主張します。

科学的努力の玩具モデルとしての最適化

問題の複雑さを完全に把握していると思うドメインは、非常に実用的でナンセンスなものです。ブラックボックス関数の最適化です。我々は順次ポイント照会することができると仮定、おそらく騒々しい観察取得用いて、。私たちの目標は、最小限の関数評価でことです。のx X、Y = F X + ε ε N0 σ 2、X * = argをX F X f:XRDRxXy=f(x)+εεN(0,σ2)x=argminxf(x)

ご想像のとおり、特に効果的な方法は、をクエリした場合に何が起こるかの予測モデルを構築し、この情報を使用して次に何をするかを決定することです(どちらかローカルまたはグローバル)。デリバティブを含まないグローバル最適化手法のレビューについては、Rios and Sahinidis(2013)を参照してください。モデルが十分に複雑な場合、これはメタモデルまたはサロゲート関数または応答曲面アプローチと呼ばれます。重要なのは、モデルが点推定値(たとえば、観測に対する動径基底ネットワーク関数の適合)であるか、またはベイジアンであり、何らかの方法で完全な事後分布が得られることです。 F FxXff (たとえば、ガウス過程を介して)。

ベイジアン最適化で は、の事後(特に、任意のポイントでの条件付き事後平均と分散の結合)を使用して、原則的なヒューリスティックを介して(グローバル)最適の検索をガイドします。古典的な選択は、現在の最良の点で予想される改善を最大化することですが、最小の場所で予想されるエントロピーを最小化するなど、より洗練された方法もあります(こちらも参照)。f

ここでの経験的な結果は、部分的に誤って指定されていても、後部にアクセスできれば、一般に他の方法よりも良い結果が得られることです。(高次元の場合のように、ベイジアン最適化がランダム検索よりも優れていないという注意事項と状況があります。)このペーパーでは、BOを使用するのが便利かどうかを確認しながら、新しいBOメソッドと他の最適化アルゴリズムの経験的評価を実行します実際には、有望な結果が得られます。

あなたが尋ねたので、これは他の非ベイジアン手法よりも計算コストがはるかに高く、なぜベイジアンである必要があるのか​​疑問に思っていました。ここでの仮定は、真の評価に関わるコストという点である(例えば、実際のシナリオでは、複雑なエンジニアリングや機械学習実験は)ので、ベイジアンがあること、ベイジアン解析のための計算コストよりもはるかに大きい報わf

この例から何を学ぶことができますか?

まず、ベイジアン最適化がまったく機能しないのはなぜですか?モデルは間違っていると思いますが、それほど間違っいるとは限りません。通常の間違いは、モデルの目的によって異なります。たとえば、の正確な形状は、その単調変換を最適化できるため、最適化には関係ありません。自然はそのような不変性に満ちていると思います。そのため、私たちが行っている検索は最適ではないかもしれません(つまり、良い情報を捨てている)かもしれませんが、不確実性情報がない場合よりも優れています。f

第二に、この例は、ベイジアンであるかどうかの有用性がコンテキスト依存する可能性があることを強調しています。たとえば、相対的なコストと利用可能な(計算)リソースの量です。(もちろん、あなたが筋金入りのベイジアンであるなら、すべての計算は何らかの事前および/または近似の下でベイジアン推論であると信じてます。)

最後に、大きな疑問があります。つまり、私たちが使用しているモデルは、結局のところ、後世がまだ有用であり、統計的なゴミではないという意味で、それほど悪くないのでしょうか。自由昼食の定理を採用する場合、明らかに多くのことは言えないはずですが、幸運なことに、完全にランダムな(または敵対的に選ばれた)関数の世界に住んでいません。

より一般的には、「哲学的」タグを付けたので...誘導の問題の領域、または統計科学における数学の不合理な有効性(具体的には、数学的な直観とモデルを指定する能力)それは実際に機能します)-純粋に先験的な観点から、推測が良好であるか、何らかの保証が必要な理由はありません(そして、間違いなく、物事が間違っている数学的な反例を構築することができます)実際にうまく機能するように。


2
素晴らしい答え。あなたの貢献に感謝します。ベイズ最適化と通常の最適化手法のレビュー/公正な比較はありますか?(私はあなたの言葉であなたを連れて行くことでかなり大丈夫ですが、参照が有用でしょう)
ギヨームDehaene

1
ありがとう!確率的数値の腕への呼び出しには、いくつかの理論的および経験的議論が含まれていると思います。BOメソッドと標準メソッドを実際に比較するベンチマークはありませんが、[ トリガー警告:恥知らずのプラグ ]現在、計算神経科学の分野でこれらのラインに沿って何かに取り組んでいます。数週間以内に、結果の一部をarXivに掲載する予定です。
-lacerbi

実際、少なくとも彼らの図2には明確な比較があります。メインの質問が出たら、あなたの仕事を追加してください。貴重な追加になると思います。
ギヨーム・デハーン

はい-それは適応ベイジアン求積法のための方法であり、かなりクールなアイデアです(実際には、その有効性はGP近似が機能するかどうかに依存します。私の仕事が利用可能になったら、回答へのリンクを追加します、ありがとう。
lacerbi

1
@IMA:ごめんなさい、私はあなたの主張を100%得るとは思いません。私は科学的試みのおもちゃモデルとしてブラックボックス最適化を採用していました。「科学」の多くのステップと問題を、この単純な(しかし、信じられないほど複雑な)ドメインにマッピングできると思います。私の議論では「ガウスノイズ」の仮定は必要ありません。それは単純化のためです。現実世界の最適化の問題(例:エンジニアリング)は、非ガウスノイズによって破損する可能性があり、それを処理する必要があります。また、ガウス過程にはガウス観測ノイズは必要ありません(ただし、推論は簡単になります)。
lacerbi

10

私はこれを今日だけ見ますが、私は専門家であり、少なくとも2つの回答(3と20(私の作品西安を参照してください!) SafeBayes-特にG.とvan Ommen、「誤って指定された線形モデルのベイジアン推論の不一致、および修復の提案」(2014)。また、コメント2に何かを追加したいと思います。

2は次のように述べています:(仕様が間違っている場合のベイズの利点は...)「まあ、ベイジアンのアプローチは正則化です。それは過剰適合を防ぐための何かです。正規化された古典的アプローチ(投げ縄など)に対するベイジアン推論の引数」

これは事実ですが、ベイジアンのアプローチが十分に正規化されない可能性があることを追加することが重要です モデルが間違っている場合。これがVan Ommenの研究の主要なポイントです。標準ベイズは、間違っているが非常に有用なモデルを使用した回帰コンテキストでかなりひどくオーバーフィットしていることがわかります。MLEほど悪くはありませんが、それでも使い道がありません。(頻度論的およびゲーム理論的)理論的な機械学習には、ベイズと同様の方法を使用するが、はるかに小さい「学習率」で全体の仕事があります-前のものをより多くし、データをより重要ではなく、したがってより多くを正規化します。これらの方法は、最悪の状況(仕様の誤り、さらに悪いことに、敵対的なデータ)でうまく機能するように設計されています-SafeBayesアプローチは、データ自体から「最適な学習率を学習する」ように設計されています-そしてこの最適な学習率、すなわち最適な量正則化の

関連して、ベイズはKL発散で「真理」に最も近い分布に事後集中するという民間定理(上記のいくつかで言及)があります。しかし、これは非常に厳しい条件下でのみ有効です。明確に指定された場合の収束に必要な条件よりもはるかに厳しいです。標準の低次元パラメトリックモデルを扱っており、データが何らかの分布(モデル内ではない)に従ってiidである場合、事後分布は実際にKL発散の真理に最も近いモデル内のポイントに集中します。大規模なノンパラメトリックモデルを扱っており、モデルが正しい場合、(本質的に)後部は十分なデータを与えられた真の分布に集中しますが、事前分布が真の分布の周りに小さなKLボールに十分な質量を置いている限り。これはモデルが正しい場合、ノンパラメトリックの場合の収束に必要な弱い条件。

ただし、モデルがノンパラメトリックでありながら正しくない場合、前の質量がそこに1(!)に近い場合でも、後部は単純に最も近いKLポイントに集中しない可能性があります-時間が経つにつれて、最高のものに近づくことはありません。私の論文には、この出来事のいくつかの例があります。誤った仕様の下で収束を示す論文(例:Kleijnやvan der Vaart)は、多くの追加条件を必要とします。たとえば、モデルが凸であるか、事前が特定の(複雑な)特性に従う必要があります。これは、「厳しい」条件という意味です。

実際には、パラメトリックでありながら非常に高次元のモデルを扱うことがよくあります(ベイジアンリッジ回帰など)。その後、モデルが間違っている場合、最終的には後部はモデル内の最高のKL分布に集中しますが、ノンパラメトリック不整合のミニバージョンは依然として保持されます。収束が起こる前に、さらに多くのデータが必要になる場合があります。ヴァンオメンが例を挙げます。

SafeBayesのアプローチは、明確に指定された場合と同じ条件(つまり、モデルのKL最適分布に近い十分な事前質量)でノンパラメトリックモデルの収束を保証する方法で標準ベイを変更します(G. and Mehta、2014 )。

次に、ベイズが仕様ミスの下で正当化さえできるかどうかという問題があります。IMHO(および上記のいくつかの人々によっても言及されているように)、ベイズの標準的な正当化(許容性、野av人、デ・フィネッティ、コックスなど)はここでは保持されません(モデルが誤って指定されていることに気付いた場合、確率はあなたの本当の信念を表さないためです) !)。しかし、多くのベイズメソッドは「最小記述長(MDL)メソッド」として解釈することもできます。MDLは、「データから学習する」と「データを可能な限り圧縮する」と同等の情報理論的な方法です。(一部の)ベイジアン手法のこのデータ圧縮の解釈は、誤った仕様のもとで有効です。まだいくつかあります誤った仕様の下で保持される基本的な解釈-それにもかかわらず、van Ommenとの私の論文(および元の投稿で言及された信頼区間/信頼できる集合の問題)が示すように、問題があります。

そして、元の投稿についての最後の発言:ベイズの「許容性」の正当化について言及しています(1940年代/ 50年代のWaldの完全なクラスthmに戻ります)。これが本当にベイズの正当化であるかどうかは、「ベイジアン推論」の正確な定義に大きく依存します(研究者によって異なります)。その理由は、これらの許容結果により、サンプルサイズや関心の損失関数などの問題の側面に依存する事前分布を使用できる可能性があるためです。ほとんどの「実際の」ベイジアンは、変更を処理する必要があるデータ、または対象の損失関数が突然変更された場合。たとえば、厳密に凸の損失関数では、ミニマックス推定量も許容されます-通常はベイジアンとは考えられていません!その理由は、固定サンプルサイズごとに、特定の事前分布を持つベイズに相当しますが、事前分布はサンプルサイズごとに異なるためです。

これが役立つことを願っています!


2
CrossValidatedへようこそ。この質問に回答していただきありがとうございます。ちょっとした注意-答えが表示されているのと同じ順序でソートされていることに頼ることはできません。さまざまな人がさまざまな順序で並べ替えることができ(最高位の回答の上部にさまざまな並べ替え基準があります)、それらの基準のうち2つは時間とともに変化します。それは、あなたがそれらを「nr 3 and 20」と呼ぶならば、あなたはあなたが意味する答えを知らないでしょう。[私も10の答えしか見つけることができません。]
Glen_b

1
ピーターにすばらしい答えをありがとう。誤って指定された場合のベイジアン推論には非常に強力な仮定が必要であるというあなたのコメントについて混乱しています。どの仮定を明示的に参照していますか?後部が最適なパラメーター値でディラック分布に収束する必要があるという条件について話しているのですか?または、漸近的正規性を保証する可能性に関するより技術的な条件について話しているのですか?
ギヨーム・デハーン

はい、グレンB(モデレーター)に感謝します-これからはこのことを心に留めておきます。
ピーターグリュンワルド

ギヨーム-コメントを考慮に入れるために上記を更新しています
ピーターグリュンワルド

7

通常のバイアスと分散のトレードオフがあります。M閉の場合[1、2]を仮定したベイズ推定では、分散が小さくなります[3]が、モデルの仕様が間違っている場合、バイアスはより速く成長します[4]。M-openケース[1,2]を想定してベイジアン推論を行うこともできます。[1,2]の分散は大きくなります[3]が、モデルの仕様ミスの場合、バイアスは小さくなります[4]。ベイズのM閉とM開のケース間のバイアスと分散のトレードオフの議論は、以下の参考文献に含まれる参考文献の一部にも現れていますが、明らかにもっと必要なものがあります。

[1] Bernardo and Smith(1994)。ベイジアン理論。ジョン・ワイリー&サンズ。

[2] Vehtari and Ojanen(2012)。モデルの評価、選択、比較のためのベイジアン予測法の調査。統計調査、6:142-228。http://dx.doi.org/10.1214/12-SS102

[3] Juho PiironenとAki Vehtari(2017)。モデル選択のためのベイズ予測方法の比較。Statistics and Computing、27(3):711-735。http://dx.doi.org/10.1007/s11222-016-9649-y

[4] Yao、Vehtari、Simpson、およびAndrew Gelman(2017)。スタッキングを使用して、ベイジアン予測分布を平均化します。arXivプレプリントarXiv:1704.02030 arxiv.org/abs/1704.02030


7

以下に、誤って指定されたモデルでベイジアン推論を正当化する他のいくつかの方法を示します。

  • サンドイッチ式を使用して、事後平均に信頼区間を作成できます(MLEを使用する場合と同じ方法で)。したがって、信頼できるセットにはカバレッジがありませんが、関心がある場合は、ポイント推定器で有効な信頼区間を作成できます。

  • 事後分布を再スケーリングして、信頼できるセットにカバレッジがあることを確認できます。

Müller、Ulrich K.「誤って指定されたモデルにおけるベイジアン推論のリスク、およびサンドイッチ共分散行列。」計量経済学81.5(2013):1805-1849

  • ベイズ規則には非漸近的な正当化があります:事前条件がで対数尤度が場合、技術条件を省略し、事後はを最小化する分布です オーバーすべての分布。最初の用語は期待されるユーティリティのようなものです。高い可能性をもたらすパラメータに重点​​を置きたいと考えています。2番目の用語は正規化されます。つまり、先ほどのKLとの小さな相違が必要です。この式は、事後が最適化するものを明示的に示しています。これは、人々が対数尤度を別のユーティリティ関数に置き換える準尤度のコンテキストで多く使用されます。p(θ)n(θ)n(θ)dν(θ)+log(ν(θ)p(θ))dν(θ)ν(θ)

Mullerの論文をありがとう。私が持っている多くの質問に答えていると思う。
ギヨーム・デハーン

6

データの実際のモデルと仮定異なりのすべての値に対してptrue(X)p(X|θ)θ

この仮定のベイジアン解釈は、追加のランダム変数が存在することであると値その範囲内よう。あなたの事前知識はおよび 。次に、は適切な確率分布ではありません。ϕϕ0ϕ0p(X|θ,ϕ=ϕ0)dθ=0p(ϕ=ϕ0)1p(ϕϕ0)=0p(θ|X,ϕ=ϕ0)=0

このケースは、ロジックの同様の推論ルールに対応します。つまり、矛盾からは何も推論できません。結果は、ベイジアン確率理論が、事前知識がデータと一致しないことを示す方法です。誰かが後部の導出でこの結果を得ることに失敗した場合、それは定式化がすべての関連する事前知識をエンコードできなかったことを意味します。この状況の評価に関しては、Jaynesに引き渡します(2003、p.41):A,¬Ap(θ|X,ϕ=ϕ0)=0

...命題のセットを検索し、矛盾が存在する場合はそれらを検出できる強力な分析ツールです。原則は、矛盾する前提条件付きの条件が存在しないことです(仮説空間は空集合に縮小されます)。したがって、ロボットを動作させます。すなわち、命題セットを条件とする確率を計算するコンピュータープログラムを作成します。 検査で矛盾が明らかでなくても、隠された矛盾がある場合p(B|E)E=(E1,E2,,En)E、コンピュータープログラムがクラッシュします。私たちはこれを経験的に発見しました」と考えた後、それはがっかりの理由ではなく、問題の定式化が破綻する可能性のある予期せぬ特別なケースについて警告する貴重な診断ツールであると認識しました。

言い換えれば、問題の定式化が不正確な場合-モデルが間違っている場合、ベイジアン統計はこれが事実であることがわかり、モデルのどの側面が問題の原因であるかを見つけるのに役立ちます。

実際には、どの知識が関連するのか、それを派生に含めるべきかどうかは完全には明らかではないかもしれません。その後、さまざまなモデルチェック手法(Gelman et al。、2013の第6章と第7章の概要を提供)を使用して、不正確な問題の定式化を見つけて特定します。

Gelman、A.、Carlin、JB、Stern、HS、Dunson、DB、Vehtari、A。、およびRubin、DB(2013)。ベイジアンデータ分析、第3版。チャップマン&ホール/ CRC。

ジェインズ、ET(2003)。確率論:科学の論理。ケンブリッジ大学出版局。


1
あなたの答えはポイントを失い、より簡単な状況を考慮しています。私たちのモデルが非常に間違っていて、データと矛盾している状況は考えません。私たちのモデルが間違っているが、壊滅的にそうではない状況を見ています。たとえば、の平均を推測することを検討してください。実際のモデルがラプラスであっても、ガウスモデルを使用して推論できます。この単純な例では、モデルは間違っていますが、説明したように「爆発」しません。XiXi
ギヨーム・デハーン

1
@GuillaumeDehaeneあなたの質問は、モデルが誤って指定されているときにベイを使用するためのいくつかの引数があるかどうかでした。明らかに、破局的に誤って指定されたモデルは誤って指定されています。さらに、モデルが壊滅的に誤って指定されているのか、単に誤って指定されているのかを先験的に知ることはできません。実際、ベイズはそれを正確に教えてくれるので便利です。私の答えはそれを指摘しています。
-matus

致命的に間違っていない場合、カバレッジはとそれほど変わりません。これを確認するために、ラプラシアンデータを使用してこの通常モデルのシミュレーションを作成できます。概念的な利点は常に存在します。考えてみてください:後部を窓から外すことにした場合、MLEだけでなく、いくつかの信頼区間も計算します。しかし、1つの特定の実験で計算されたCIの解釈は不明瞭であることがわかっています。リラックスして、ベイジアンビールをお楽しみください。モデルが誤って指定されていることを理解している場合は、この情報を使用してより良いモデルを作成してください。1α

@GuillaumeDehaeneはい、私の答えは完全ではありません。壊滅的なケースではないことを明確にするために喜んで拡張しますが、念頭に置いて何を指定する必要があります:ここでは、が小さくなるような小さな数ですか?または、まだであるが存在すると言っていますか他に何か?境界線のケースを作成することはできますが、一般にこれらのそれほど深刻ではないケースでは後部はあまり影響を受けないという点で、私は禅に同意します。p(X,θ|ϕ=ϕ0)dθ=kkp(X|ϕ=ϕ0)θ=θ0p(θ=θ0|ϕ=ϕ0)=0p(X,θ=θk|ϕ=ϕ0)>0
-matus

5

MLEは、指定したモデルのパラメーターの推定量であり、正しいと見なされます。頻繁なOLSの回帰係数はMLEで推定でき、それに付加するすべてのプロパティ(不偏、特定の漸近分散)は、非常に特定の線形モデルが正しいと仮定します。

私はこれをさらに一歩進めて、意味と特性を推定器に帰したいたびに、モデルを仮定する必要があると言います。単純なサンプル平均をとっても、データは交換可能であり、しばしばIIDであると想定しています。

現在、ベイジアン推定量には、MLEにはないかもしれない多くの望ましい特性があります。たとえば、多くの状況で望ましい部分的なプーリング、正則化、および事後の解釈可能性。


意味を意味するためにIIDを仮定する必要はありません。交換可能性を仮定するのに十分です(しかし、はい、それはまだ仮定です...)
kjetil b halvorsen

@kjetil b halvorsenありがとうございます。わかりやすくするために編集しました。
-TrynnaDoStat

4

ゲルマンとシャリジの哲学とベイジアン統計の実践をお勧めします。これらは、これらの質問に対して一貫した、詳細かつ実用的な回答を持っています。

私たちは、ベイジアン推論のこの受信されたビューのほとんどが間違っていると思います。ベイジアン法は、他の統計的推論モードよりも帰納的ではありません。ベイズのデータ​​分析は、仮説演ductive的観点からよりよく理解されます。最良のベイジアン実践における暗黙の姿勢は、メイヨー(1996)のエラー統計的アプローチと多くの共通点を持っていますが、後者は頻繁に指向されています。実際、モデル検査などのベイジアンデータ分析の重要な部分は、メイヨーの意味では「エラープローブ」として理解できます。

経験的社会科学研究におけるベイジアンデータ分析の具体的なケースと、ベイジアン更新の一貫性と収束に関する理論的結果の調査を組み合わせて進めます。社会科学的データ分析は、このドメインでは使用中のすべてのモデルが間違っているという一般的な合意があるため、私たちの目的にとって特に顕著です。十分なデータ(多くの場合、かなり適度な量)があれば、アナリストは現在使用中のモデルを希望する信頼レベルまで拒否できます。それにもかかわらず、モデルのフィッティングは貴重な活動であり、実際にデータ分析の核心です。これがなぜそうなのかを理解するために、モデルがどのように構築、適合、使用、チェックされるか、およびモデルに対する仕様の誤りの影響を調べる必要があります。

...

私たちの見解では、[標準的なベイジアンビューの]最後の段落の説明は非常に間違っています。データ分析プロセス(ベイジアンまたはその他)は、パラメーター推定値または事後分布の計算で終わりません。むしろ、フィットしたモデルの意味を経験的証拠と比較することにより、モデルをチェックできます。当てはめられたモデルからのシミュレーションが元のデータに似ているかどうか、当てはめられたモデルがモデルの当てはめに使用されていない他のデータと一致しているかどうか、モデルが言う変数がノイズ(「誤差項」)かどうかなどの質問をします実際には、容易に検出可能なパターンが表示されます。モデルとデータの不一致を使用して、モデルが手元の科学的目的に不十分である方法について学習し、モデルの拡張と変更を促すことができます(セクション4)。


2

モデルの不確実性の影響を説明していると思います- データを考慮した未知のパラメーターに関する推論は 、データだけでなく、モデル、 も依存することを心配しています。が信じられないモデルである場合はどうなりますか?代替モデルが同じ未知のパラメータで、存在する場合、あなたは、ベイズモデル平均でモデルの不確実性を過小評価することができます 、これはですが、考慮されるモデルとその事前の機能。xdm

p(x|d,m),
mx
p(x|d)=mp(x|d,m)p(m|d)

一方、パラメータの定義が本質的にモデル結び付けられており、選択肢がない場合、に関する推論がを条件とすることは驚くことではありません。 xmxm


3
モデルの平均化は私たちを救うことができません:真のモデルがどういうわけか私たちのより大きなモデルの範囲内にきちんと収まると仮定するのは愚かです。モデル比較により、いくつかのモデルのどれがデータの最良の説明を与えるかを決定できますが、これは他のモデルよりも間違っていない間違ったモデルを返すだけです。
ギヨーム・デハーン

モデルの不確実性を首尾一貫して組み込んだ未知の量について推論/推定を行うのに役立ちます。ただし、新しい仮説を発明することはできません。データに照らしてモデルを発明した統計的機械があれば、たとえば科学はずっと簡単になります。
イニスフリー

1

「誤って指定された」モデルとはどのように定義しますか?これはモデルを意味しますか...

  • 「悪い」予測をする?
  • いくつかの「真のモデル」の形式ではありませんか? pT(x)
  • パラメータが欠落していますか?
  • 「悪い」結論につながる?

特定のモデルが誤って指定される可能性がある方法を考えると、基本的に、より良いモデルを作成する方法に関する情報を抽出することになります。その追加情報をモデルに含めてください!

ベイジアンフレームワークの「モデル」とは何かを考えると、いつでも間違って指定できないモデルを作成できます。これを行う1つの方法は、現在のモデルにさらにパラメーターを追加することです。さらにパラメーターを追加することにより、モデルをより柔軟で順応性のあるものにします。機械学習の方法は、この考えを最大限に活用します。これは、「ニューラルネットワーク」や「回帰ツリー」などの根底にあります。ただし、事前確率について考える必要があります(MLの正規化と同様)。

たとえば、例として「線形モデル」を指定したので、次のようになります。 Where。各観測値に新しいパラメーターを追加するとします。... ここで、は以前と同じです。これは物事をどのように変えますか?「モデル2がtrueの場合、モデル1の指定が間違っている」と言えます。しかし、モデル2には多くのパラメーターがあるため、推定が困難です。また、に関する情報が重要な場合、モデル1が「間違っている」かどうかは問題になりますか?
、E 、IN 0 1 モデル2:  X I = θ + σ E I

model 1: xi=θ+σei
eiN(0,1)電子IN01θ
model 2: xi=θ+σeiwi

eiN(0,1)θ

(「モデル2a」のようなと仮定すると、基本的に「通常のエラー」ではなく「コーシーエラー」が発生し、モデルはデータの外れ値を予期します。したがって、モデルにパラメーターを追加し、それらの事前分布を選択することにより、「より堅牢なモデル」を作成しました。ただし、モデルは依然として誤差項で対称性を期待しています。別の事前を選択することにより、これも同様に説明できます...wiN(0,1)


また、使用するパラメーターが多いほど、必要なデータも多くなります。に関するの情報が不足している場合、パラメーターを追加しても役に立ちません。新しいデータでは、DGPはさらに一定ではないため、さらに多くのパラメーターなどが必要になります。モデルが一般的である(パラメーターが多い)ほど、「誤って指定されている」可能性は低くなりますが、推定する必要があるデータが多くなります。対照的に、モデルに対する要求が少ないほど、必要なデータは少なくなります。しかし、実際には、完全な事後対たとえば条件付きモーメントの場合、モデルはどの程度「正しい」のでしょうか?f x xf(x)
IMA
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.