ベイジアン:尤度関数の奴隷?


62

Larry Wasserman教授は、彼の著書「統計のすべて」で、次の例を示しています(11.10、188ページ)。ような密度があり、は既知の(非負の積分可能な)関数であり、正規化定数は不明であるとします。ff(x)=cg(x)c > 0gc>0

計算できない場合に興味があります。たとえば、が非常に高次元のサンプル空間でのpdfである場合があります。c=1/g(x)dxf

が未知であってもからサンプリングできるシミュレーション手法があることはよく知られています。したがって、パズルは次のとおりです。このようなサンプルからをどのように推定できますか。fcc

教授ワッサーマンは、次のベイズソリューションについて説明します聞かせてのためのいくつかの前にである。尤度は したがって、事後 はサンプル値依存しません。したがって、ベイジアンはサンプルに含まれる情報を使用してに関する推論を行うことはできません。πcπ C | X αのC nは π Cはxは1... X nは Cを

Lx(c)=i=1nf(xi)=i=1n(cg(xi))=cni=1ng(xi)cn.
π(cx)cnπ(c)
x1,,xnc

Wasserman教授は、「ベイジアンは尤度関数の奴隷です。尤度がおかしくなると、ベイジアン推論もそうなります」と指摘しています。

私の仲間のスタッカーに対する私の質問は、この特定の例に関して、ベイズの方法論で何が間違っていたのか(もしあれば)?

PSワッサーマン教授が答えで親切に説明したように、この例はエドジョージによるものです。


10
この例は、ベイジアン分析のようではなく、数値積分を実行するための奇妙で非効率的な方法にすぎません。
whuber

2
ベイジアンはについて何も学習していないと言えますか。この場合、ます。明らかにそうではありません。π C | X α π C cπ(c|x)π(c)
確率論的

2
私はこの例を本当に理解していません。が依存しない場合、が形式のみに依存し、サンプルで同じであるため、データが情報を含まないことは当然のことではありませんか?私は明らかに微妙な(またはそれほど微妙ではない)ポイントを逃しています。c c g a n yg()ccg()any
ディクランマースピアル

私は正式にベイジアンアプローチ工夫していることがあり、禅の異議@克服を西安の禁忌はありません関心の欠如を、ちょうど数値積分の精度を評価してしまいます。
パネロン

1
Larryのブログの素敵なフォローアップ:normaldeviate.wordpress.com/2012/10/05/…–
Zen

回答:


43

これは、私の論文(インターネット上でのみ公開)「ラリーワッサーマンの例について」[ 1 ]で、ワッサーマン、ロビンス、ワッサーマンのブログに関する他のコメント者とのブログ交換で議論されています:[ 2 ]

簡単な答えは、Wasserman(およびRobins)は、高次元空間の事前確率には、関心のあるパラメーターがほぼ確実に先験的に知られていること、または明確に関連する問題(選択バイアス)を暗示する特性があることを示唆することにより、パラドックスを生成することです存在しないことがほぼ確実に知られています。実際、賢明な事前確率にはこれらの特性はありません。私はこれをまとめるための要約ブログ投稿を書いている最中です。ワッセルマンとリトフが考察する例に対する賢明なベイズのアプローチを示す、2007年の優れた論文があります。これは、HamelingとToussaintによる「ロビンズ・リトフの問題のベイズ推定量」[ 3 ]


12
シムズ教授、ご協力ありがとうございます。以下の私の答えに同意しますか?PSノーベル賞がSEに投稿されました。どのようにそのことについて?nobelprize.org/nobel_prizes/economics/laureates/2011/sims.html-

1
@ChrisSimsシムズ教授非常に権威ある回答で私の答えを吹き飛ばしてくれてありがとう!
マイケルチャーニック

4
私は、この回答の投票総数が最高であるという事実に驚いています(現時点で)。ワッサーマン教授が指摘しているように、シムズ教授の答えは、禅が尋ねたものとは全く異なるパズルについてです。私は、ほとんどの人がシムズが提供したリンクを読んで理解せずにそれを支持したと推測します。
シアン

3
シアン、このパズルに関するSim教授のコメントは、リンク[1]、WassermanComment.pdf、p。10、セクションVII。追記2.
madprob

43

この例では、特に魅力はありません。Bayesiansと尤度wallahsの電位批判として....定数に等しい、知られている 場合 "のみですサンプルで与えられた場合、この問題に関する統計的な問題はなく、推定量が存在することに同意しません。NOR 事前確率で(上記の値にディラック質量を除きます)。これは、少なくとも統計的な問題ではなく、数値的な問題です。c

1/Xg(x)dx
cx1,,xncc

サンプルを(周波数)密度推定で使用して数値近似を提供できることは、単なる好奇心です。代替の統計的アプローチに対する批判ではありません:ベイズ密度推定も使用できます...x1,,xnc


4
尤度が真の条件付き密度である場合、適切な事前分布で開始し、不適切な事後分布で終了することはできません!
西安

未知の定数とパラメーターの違いを定義する方法は?確率の紹介では、de Finettiは不確実性を引き出すことを検討しています。de Finettiはをとは異なるものと見なしますか?そうでない場合、データを観察すると、に関する不確実性が変わりますか?不明な定数/パラメータについても。アリスが定数を選択し、に入力するとします。が、未知の定数であるボブは、彼の前に引き出すことができるであろう使い学ぶためにπcπX1,X2,,XnccRx=rnorm(100,c,1)ccxc。Wassermanの例のが異なるのはなぜですか?c
madprob

3
私はデ・フィネッティではないので、彼に答えることはできません!
西安

3
あなたの例は統計的です:基礎となる分布が未知のパラメーターcによって支配される観測値を取得します。ラリー(またはエド!)の例は統計的ではありません。サンプルの分布は完全に既知であり、未知のパラメーターcによって駆動されません。これは、Zenの答えでさらに説明されています。cの値は1つしかないため、パラドックスで終了せずにを書くことはできません。f(x1,,xn|c)
西安

40

この例は奇妙だということに同意します。私はそれが本当にパズルのようになることを意味しました。(この例は実際にはEd Georgeによるものです。)

何かが「知られている」とはどういう意味かという問題を提起します。クリスチャンは、が知られていると言います。しかし、少なくとも純粋に主観的な確率の観点からは、それが原則的に知られているという理由だけでそれを知りません。(数値積分を行うことができないと仮定します。)主観的なベイジアンは、すべてをを含む分布を持つ確率変数と見なします。cc

とにかく、紙

A. Kong、P。McCullagh、X.-L。孟、D.ニコラエ、およびZ.タン(2003年)、モンテカルロ積分のための統計モデルの理論J.ロイヤル統計。Soc。B、vol。65、いいえ。3、585–604

(議論あり)は本質的に同じ問題を扱います。

クリス・シムズが彼の答えで言及している例は、非常に異なる性質のものです。


3
Wasserman教授あなたの例とその歴史について説明してくれてありがとう。私はスタンフォード大学の大学院生で、エドジョージと重複していました。当時、スタンフォード統計局は非常に非ベイジアン的でしたが、エフロンとスタインと共に経験的なベイズの周辺にいました。しかし、学科は非常にオープンマインドで、デニス・リンドリーは私が1つの夏を取ったベイジアン統計学の大学院コースを与えました。どういうわけかエドは本格的なベイジアンになるように改宗し、ギブスのダミーのサンプリングに関する論文を書きました(もちろんそのタイトルではありません)。
マイケルチャーニック

1
私はあなたの小さな本「統計のすべて」と「ノンパラメトリックのすべて」を読んで楽しんでいます。
マイケルチャーニック

1
偶然ではないかもしれませんが、私はこの論文をKong et al。(2003)、分布ではなくメジャーでグループ変換を使用する効率についてほとんど否定的です。最近、Xiao-Liが私を論文のより肯定的な認識に向けさせ
西安

1
「数値積分ができないと仮定します。」論理的な不確実性(これは一例です)が、かなりの努力にもかかわらず分析に抵抗していることを理解しています。
ジョンサルバ

計算できないためにが不明であるのと同じロジックで、関数が「不明」であると結論づけ、が存在する関数空間に優先順位を付ける必要があると思います。確かに「知っている」、、...を評価できるので、機能分析の観点から、デュアルの要素に対してテストできない限り、関数が何であるかを「知らない」と主張します統合機能などのスペース。cgg(x1)g(x2)g
ニック・アルジェ

23

提案された統計モデルは次のように説明できます。既知の非負の積分可能関数と、非負のランダム変数ます。ランダム変数は、条件付き密度で与えられた場合、条件付きで独立して同一に分布することになっています。以下のための。g:RRCX1,,XnC=cfXiC(xic)=cg(xi)c>0

残念ながら、一般的に、これは統計モデルの有効な説明ではありません。問題があることが、定義により、なければならないのほぼすべての可能な値の確率密度であり、一般的に、明らかに偽です。実際、単一の値のみに当てはまります。したがって、の分布がこの特定の値に集中している些細な場合にのみ、モデルが正しく指定されます。もちろん、このケースには興味がありません。私たちが望むのは、の分布がルベーグ測度に支配され、素晴らしいpdfを持つことです。fXiC(c) cc=(g(x)dx)1CCπ

したがって、、式 関数として定義すると固定の真の尤度関数に対応しません。x=(x1,,xn)

Lx(c)=i=1n(cg(xi)),
cx

その後はすべてこの問題から継承されます。特に、ベイズの定理で計算された事後は偽です。簡単にわかります。適切な事前の ことに注意してください。例に示されている計算によれば、事後は しかし、それが正しい場合、この後部は常に不適切です。なぜなら、 サンプルサイズごとに発散します。

π(c)=1c2I[1,)(c).
0π(c)dc=1
π(cx)1c2nI[1,)(c).
01c2nI[1,)(c)dc
n1

これは不可能です。適切な事前確率で開始する場合、すべての可能なサンプルに対して事後確率が不適切になることはありません(一連のヌル事前予測確率内では不適切である可能性があります)。


誰もあなたの答えにコメントしていないのが残念です。あなたはポイントを持っているかもしれないと思うが、私は少し困惑している。確かに、正の実数に有効な事前分布を置くことができます。gがR有限積分を持つ非負の場合、c> 0ごとに確率密度fを定義できないのはなぜですか?+
マイケルチャーニック

1
こんにちはマイケル。もちろん次のことができます。ガンマ、対数正規など。これが答えにどのように関係しているかわかりません。おそらく私はあなたの言っていることを理解していないでしょう。

さて、私はあなたの議論に従うのに苦労しています。fの条件付き密度は1つのcに対してのみ存在すると言いますが、それは正しくありません。尤度の表現が無効である理由と、適切な事前分布を仮定し、それが不適切な事後分布につながることを示すことによって矛盾によって証明を得る方法がわかりません。
マイケルチャーニック

問題の核心は、データが実際にcから独立しており、cに関する情報が含まれていないことです。cを含む尤度関数があると言えますが、この可能性はcの関数として最大化することはできません。cの選択ごとに、f = cgがあると思います。
マイケルチャーニック

4
n番目の瞬間のない適切な事前確率も、この例で機能します。私はこれが何かが間違っていることを示す便利な方法であることに同意します。私の考えは、事前確率が知識に基づいていないということです。を知っているため、この情報と一致する事前条件は1つだけです。これは、ディラックデルタ関数です。他の事前分布を使用することは論理的に正しくありません。言うようなのは、その種とき独立していないから与えられたg(.)g(.)p(c|g(.))=δ(c0g(x)dx)p(Z|XY)p(Z|X)YZX
probabilityislogic

11

この例は少し奇妙で不自然です。尤度がおかしくなるのは、gが既知の関数だからです。唯一の不明なパラメーターはcで、尤度の一部ではありません。また、gは既知であるため、データはfに関する情報を提供しません。いつ実際にそのようなものを見ますか?したがって、事後は事前にちょうど比例し、cに関するすべての情報は事前にあります。

さて、考えてみてください。頻度主義者は最尤法を使用するため、頻度主義者は尤度関数にも依存することがあります。よく、頻度はあなたが言うかもしれない他の方法でパラメーターを推定できます。ただし、この問題はパラメータcを1つしか持たず、cに関するデータには情報がありません。gは既知であるため、データ期間から収集できる未知のパラメーターに関連する統計上の問題はありません。


マイケル、ありがとう。奇妙な状況ではありませんか?Wasserman教授は、を推定するために次の方法を提案します。密度任意の(頻度論者)一貫性のある推定器(たとえば、ある種のカーネル推定器)を使用します。任意の点を選択し、が一貫した推定量であることに注意してください。cf^fxc^=f^(x)/g(x)c

4
@Zenオーケー、その例を見てみましょう。データを収集する理由は何ですか?gを知っています。したがって、数値を統合して、何も推定することなく、希望する任意の精度レベルでcを決定できます。cを計算できないという仮定は、xの関数としてgを知っていても、それを統合できないことを意味します!彼の例は弱く、議論も弱いと思います。私は彼の本が一般的に言っているのが好きです。
マイケルチャーニック

11

皮肉なことに、ベイジアン計算を行う標準的な方法は、MCMCサンプルの頻度分析を使用することです。この例では、計算したい限界尤度と密接に関連していると考えるかもしれませんが、ベイジアンの方法で計算を行うという意味で、ベイジアンの純粋主義者になります。c

一般的ではありませんが、ベイジアンフレームワークでこの積分を行うことは可能です。これには、いくつかの点で関数を評価する関数(実際にはガウス過程)に事前分布を配置し、これらの点を条件付け、事後の積分を計算することが含まれます。この状況では、尤度はいくつかの点でを評価することを含みますが、は他の点では未知であるため、尤度は上記の尤度とはまったく異なります。この方法は、このペーパーhttp://mlg.eng.cam.ac.uk/zoubin/papers/RasGha03.pdfで実証されていますg()g()g()g()

ベイジアンの方法論に何か問題があったとは思わない。書かれている可能性は、をどこでも知られているように扱います。これが当てはまる場合、問題には統計的な側面はありません。もしベイズの方法論が正常に動作有限個の点以外では不明であると仮定されます。g()g()


驚いたことに、これ以上の賛成票はありません。これが問題の核心になります。これは、関数をいつでも評価できるという理由だけで、関数が何であるかを「知っている」という曖昧な主張です。関数を「知っている」と言うより適切な基準は、関数の連続線形汎関数を評価する能力だと思います。
ニック・アルジェ

@ニックアルガー:人々はリクリーの興味を失っています。ベイズだと確信していないので、私はそれを支持していません-セットDのxi(xi、f(xi))は、研究で観察された、またはランダムに生成されたxiを指しますか?最初の場合はベイズですが、数秒の計算時間で単純なMCを使用するのは非常に簡単です(したがって、正常に動作しません)またはベイズではありません(データに条件がありません)。
パネロン

-2

NULL(データが生成されない)を含むように、既知の可能性の定義(データの拡張と同様に、観測されたが失わたデータの欠落データを許可する)の定義を拡張できました。

あなたが持っていると仮定する適切前 次に、xのデータモデルを定義します

π(c)=1c2I[1,)(c).

もしc=(g(x)dx)1

fXaC(xac)fXiC(xic)=c1g(xi) {a for any}

それ以外の場合、faXaC(xac)=0

したがって、事後は0または1(適切)になりますが、上記のデータモデルからの尤度は利用できません(データモデルで必要な条件を決定できないため)。

あなたはABCをします。

事前から「c」を描きます。

ここで 数値積分によりを近似し、その近似であれば「c」を保持します–「c」<イプシロン。(g(x)dx)1

保持される「c」は、真の事後値の近似値になります。

(近似の精度は、イプシロンとその近似の調整の十分性に依存します。)


-5

待って、何?あなたが持っているそれはの値に依存しないように。「」で依存関係を非表示にしたからといって、それを無視できるわけではありませんか?{ x i }

π(c|x)=(Πig(xi))cnπ(c),
{xi}

2
親愛なる混乱:上記の式は間違っています。分母(の限界尤度)はどこにありますか?で除算すると、がキャンセルされることがわかります。本の「後」は他の理由で間違っています。答えを確認してください。F X | C xn i = 1 g x if(xc)π(c)dci=1ng(xi)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.