頻度の高いベイジアンの議論はどこへ行ったのですか?


59

統計の世界は、フリークエンシーとベイジアンに分かれていました。最近では、誰もが両方を少しやっているようです。どうすればいいの?異なるアプローチが異なる問題に適している場合、統計の創設者はなぜこれを見なかったのですか?あるいは、頻度論者が議論に勝ち、真の主観的なベイジアンが決定理論に移行したのでしょうか?


13
このCWを作成したのは、1つの信頼できる、または最良の答えが存在する可能性は低いという前提です。(同意しない場合は、MODを説得してください!)質問を閉じるのは論争の可能性があると主張する人もいるかもしれませんが、(IMHO)話題で興味深いものです。ただし、異議のある、論争的な、またはサポートされていない返信は、表示された場合、それ以上の説明なしに削除されます。
whuber

回答:


58

私は実際、この前提に少し賛成しません。確率分布が事前に渡されている場合、誰もがベイジアンです。問題は、そうでない場合に発生し、そのトピックにはまだかなりの規模の格差があると思います。

とはいえ、私はますます多くの人々が聖戦と戦う傾向が少なくなり、与えられた状況で適切と思われることを続けることに同意します。

専門職が進歩するにつれて、双方が反対側のアプローチにメリットがあることに気づいたと思います。ベイジアンは、ベイジアン手順が何度も繰り返し使用された場合にどの程度うまくいくかを評価する(たとえば、この95%信頼区間(CI)が実際に約95%の時間の真のパラメーターを実際に含むのか?)これがないと、実際の数値に対する「95%」の較正はありません。堅牢性?反復フィッティングなどによるモデル構築?頻繁な世界で出てきたアイデアで、1980年代後半以降にベイジアンによって適応されました。頻度の高い専門家は、正則化が優れていることを認識し、最近では非常に一般的に使用されています。ペナルティ関数を持つキュービックスプラインを介したノンパラメトリックモデリング?あなたのペナルティは私の前です!今、私たちはすべて仲良くすることができます。

もう1つの大きな影響は、高品質のソフトウェアの可用性の驚異的な改善であり、分析を迅速に行えるようになることです。これには2つの部分があります。たとえば、GibbsサンプリングやMetropolis-Hastingsなどのアルゴリズムと、ソフトウェア自体であるR、SASなどです。すべてのコードをCで記述する必要がある場合は、純粋なベイジアンになります。他のことを試してみる時間はありません)が、それでも、Rのmgcvパッケージでgamを使用します。モデルが過度に絞り込まずにフレームワークに収まるように見えるときはいつでも、私はより良い統計学者。相手の方法に精通し、問題を考えるためのデフォルトのフレームワークに100%適合しない場合でも、状況によってそれらを使用することでどれだけの労力を節約/改善できるかを理解し、


5
@Dikran:私は同意しますが、私は個人的に対戦相手の言葉の選択と口論するという警告に同意します。:)
枢機

2
@cardinal私は知らない、同僚を巻き上げるのは楽しいかもしれない(あなたが両方とも実際にそれを意味するよりもよく知っている限り!; o)
ディクランMarsupial

3
@Dikran-ご理解いただきありがとうございます!「反対者」も正しい言葉だとは思っていませんでしたが、楽しみのためだけに、反対意見を保持するより良いものを考えられなかったため、とにかくそこに貼り付けました。
jbowman

5
@jbowman:ベイズ統計a-la Good、Lindley、またはDeFinettiは、事前確率が主観的/精神的であり、客観的/物理的ではないことを意味することに注意してください。そのため、「...みんなはベイジアンだ」とは反対でしょう。これが、ロビンスが頻繁に以前の「新しい」アイデアを導入するときに「経験的ベイズ」という用語を使用しなければならなかった理由です。しかし、今日では、マルチレベルサンプリングスキームを使用しているため、事前に頻繁に使用しているため、「ベイジアン統計」として十分であることに同意します。
ジョンロス

2
@JohnRos-私が考えていたのはもっと古典的なものでした。「結核検査で陽性になった場合、結核にかかる確率はいくらですか?」状況。(私は推測します)少数の頻繁な統計学者は、適切なベースラインTBレートが事前確率として使用され、テスト尤度で更新することに反対するでしょう。もちろん、彼らは以前のものが主観的であるという考えに依然として反対し、その背後にあるデータにもかかわらず主観的であると主張する一連の推論を見ることができたので、ポイントが取られました(+1)。
jbowman

35

これは答えるのが難しい質問です。本当に両方を行う人の数はまだ非常に限られています。ハードコアベイジアンは、ベイジアンにとって無意味で内部的に一貫性のない統計値である値の使用について、主流の統計のユーザーを軽spしています。そして、主流の統計学者は、ベイズの方法を十分に知らないので、それらについてコメントできません。これに照らして、ベイズ文学(ほぼ純粋な生物学または純粋な心理学ジャーナルに及ぶ範囲)での帰無仮説の有意性テストに対する多くの批判が見られますが、主流派からの反応はほとんどありません。p

統計の専門職では、「誰が討論に勝ったか」に関して矛盾する兆候があります。一方、平均的な統計部門の構成では、ほとんどの場所で、10〜15のメインストリーマーと1-2のベイジアンが見つかります。 (ハーバード、デューク、カーネギーメロン、ブリティッシュコロンビア、北アメリカのモントリオール。ヨーロッパのシーンにはあまり馴染みがありません)。一方、JASAやJRSSなどの雑誌では、おそらく論文の25〜30%がベイジアンのものであることがわかります。ある意味では、ベイジアンルネッサンスは1950年代のANOVA論文の爆発のようなものかもしれません。当時、人々はほとんどすべての統計問題がANOVA問題として組み立てられると考えていました。たった今、

私の考えでは、応用分野は哲学的詳細を理解することを気にせず、作業しやすいものなら何でもかまいません。ベイジアンの方法論は非常に複雑です:統計に加えて、計算の技術(サンプラーのセットアップ、ブロッキング、収束診断、何とか何とか)を学び、事前を守る準備をする必要があります(使用する必要があります)客観的な優先順位、またはフィールドが3e8 m / sの光の速度にかなり落ち着いている場合、または優先順位の選択が後部が適切かどうかに影響するかどうかにかかわらず、有益な優先順位を使用する必要があります)。そのため、ほとんどの医学または心理学または経済学のアプリケーションでは、実質的な研究者によって書かれた論文に主流のアプローチがあります。

私が思うに、ベイジアンフレームワークがまだ不足している分野の1つはモデル診断です。これは開業医にとって重要な分野です。ベイジアンの世界では、モデルを診断するには、より複雑なモデルを作成し、ベイジアン因子またはBICにより適した方を選択する必要があります。したがって、線形回帰の正規性の仮定が気に入らない場合は、スチューデントエラーを使用して回帰を構築し、データに自由度の推定値を生成させるか、すべての空想になり、ディリクレプロセスを使用することができますエラー用語と異なるモデル間でいくつかのMHジャンプを行います。主流のアプローチは、スチューデント化された残差のQQプロットを作成し、外れ値を削除することです。これも非常に簡単です。

これに関する本の章を編集しました。http://onlinelibrary.wiley.com/doi/10.1002/9780470583333.ch5/summaryを参照してください。これは非常に典型的な論文であり、この議論に関する約80の参考文献があり、すべてがベイジアンの観点を支持しています。(著者に改訂版で拡張するように依頼しましたが、それについては多くのことを言っています:))。主要なベイジアン理論家の一人であるデュークのジム・バーガーは、多くの講義を行い、そのトピックに関する多くの非常に思慮深い記事を書きました。


14

両方を保持するのには十分な理由があります。これは、優れた職人が目前の作業に最適なツールを選択することを望んでいることです。

ただし、ベイジアン手法はより直接的な答えを提供しますが、頻繁な統計は、ベイジアンの対応よりも科学および工学での適用を容易にする「統計クックブック」アプローチにより適しているため、ジョブの間違ったツールがしばしば使用されます。提起された質問(これは通常、実際に持っているデータの特定のサンプルから推測できるものです)。「クックブック」アプローチは、実際に何をしているのかをしっかりと理解せずに統計を使用することにつながるため、これにはあまり賛成ではありません。

ただし、時間が経つにつれて、ベイジアンアプローチのソフトウェアツールは改善され、jbowmanが正しく言うように、より頻繁に使用されるようになります。

私は傾向によってベイジアンです(頻繁にアプローチするよりもはるかに理にかなっているように見えます)、しかし、ベイジアン統計を使用するとレビュアーに問題があるため、論文で頻繁に統計を使用することになります「非標準」になります。

最後に(やや舌のように)、マックスプランクを引用する「新しい科学的真理は、敵を説得して光を見せることによって勝利するのではなく、むしろ敵が最終的に死に、そして新しい世代が馴染むように成長するためそれと。"


10

私は、フリークエンティストとベイジアンが同じ質問に対して異なる答えをするとは思わない。彼らはさまざまな質問に答える用意ができていると思います。したがって、一方の勝ちについて多くを語ったり、妥協について語ったりするのは理にかなっていないと思います。

私たちが尋ねたいかもしれないすべての質問を考慮してください。多くは単なる不可能な質問です(「真の値は何ですか?」)。さまざまな仮定が与えられた場合に回答できるこれらの質問のサブセットを検討する方が便利です。より大きなサブセットは、事前分布の使用を許可する場合に回答できる質問です。このセットをBFと呼びます。BFのサブセットがあります。これは、事前に依存しない一連の質問です。この2番目のサブセットをFと呼びます。FはBFのサブセットです。B = BF \ Bを定義します。θ

ただし、回答する質問を選択することはできません。世界について有用な推論を行うために、Bにある質問に答えなければならないことがあります。これは、事前確率を使用することを意味します。

理想的には、推定量が与えられたら、徹底的な分析を行います。事前分布を使用することもできますが、事前分布に依存しない推定器について良いことを証明できれば、それもまたクールです。だからといって、事前の質問を捨てることができるわけではありません。本当に興味深い質問には事前の質問が必要かもしれません。

誰もがFの質問に答える方法に同意します。本当に「興味深い」質問がFにあるのかBにあるのか心配です。

例:患者が医者に足を踏み入れ、健康(H)または病気(S)のいずれかです。実行するテストがあり、ポジティブ(+)またはネガティブ(-)を返します。テストは決して偽陰性を与えません-つまりです。しかし、それは時々偽陽性を与えます-P(|S)=0P(+|H)=0.05

カードがあり、テスト機はカードの片面に+または-を書き込みます。どうにかして真実を知っている神託があり、この神託がカードを封筒に入れる前に、カードの反対側に真の状態HまたはSを書いていると想像してください。

統計的に訓練された医師として、カードを開く前に、エンベロープ内のカードについて何と言えますか?次のステートメントを作成できます(これらは上記のFにあります)。

  • Sがカードの片側にある場合、反対側は+になります。P(+|S)=1
  • Hの場合、反対側は5%の確率で+、95%の確率で-になります。P(|H)=0.95
  • (最後の2点の要約)2つの辺が一致する確率は少なくとも 95%です。P((,S)(+,H))0.95

またはが何であるかはわかりません。何らかの事前準備がなければ、これに答えることはできません。ただし、これらの2つの確率の合計に関するステートメントを作成できます。P((,S))P((+,H))P(S)

これは、これまでのところ可能な限りです。封筒を開く前に、テストの精度について非常に肯定的な声明を出すことができます。テスト結果が真実と一致する確率は(少なくとも)95%です。

しかし、実際にカードを開くとどうなりますか?テスト結果が陽性(または陰性)であることを考えると、それらが健康であるか病気であるかについては何と言えますか?

テストが陽性(+)の場合、何も言えません。たぶん彼らは健康で、そうでないかもしれません。疾患の現在の有病率()に応じて、陽性と診断されたほとんどの患者が健康であるか、またはほとんどが病気である場合があります。最初に境界を設定することを許可しない限り、これに境界を設定することはできません。P(S)P(S)

この単純な例では、陰性の検査結果を持つすべての人が健康であることは明らかです。偽陰性はないため、すべての統計学者が喜んでその患者を家に送り返します。したがって、検定結果が肯定的でない限り、統計学者の助言に対して支払うことは意味がありません

上記の3つの箇条書きは正しく、非常に簡単です。しかし、彼らも役に立たない!この明らかに不自然なモデルでの本当に興味深い質問は次のとおりです。

P(S|+)

そして、これはなしでは答えられません(すなわち、事前、または事前の少なくともいくつかの境界)P(S)

私はこれがおそらく過度に単純化されたモデルであることを否定しませんが、それらの患者の健康について有用な発言をしたい場合、私たちは彼らの健康についての事前の信念から始めなければならないことを示しています。


2
どのように文を両立している"場合、その後、他の側はされますで確率、と確率。 "以前の主張とその「例:」で始まる段落で?H+5%95%P(|S)=0.95P(|S)=0
ディリップサルワテ

1
打ち間違え。@DilipSarwateを見つけてくれてありがとう。私が言うことを意味、ではないP(|H)=0.95P(|S)=0.95
アーロンMcDaid

2
を知らなくても、あなたが主張するよりも正確になる可能性があることに注意してください。また、テストは、病気になる確率と健康になる確率が倍になると言います。ただし、意思決定(たとえば、治療する、または治療しない)に関しては、(および損失関数)が必要です。P(S)+20P(S)
確率論的

1
が母集団からの事前調査から推定された場合教育された推測と比較して)、特に研究者が精度を推定したい場合、統計の頻繁な側面が重要になりますか?P(S)P(S)
ロバートF

6

あなたが見るように、非常に多くの頻繁なベイジアンの議論が進行中です。実際、これまで以上に暑く、独断的ではないと思います。あなたは私のブログに興味があるかもしれません:http : //errorstatistics.com


2
Shalizi&Gelmanの著作を通してあなたの作品に精通しています。ブログを確実にフォローします。そして、まだ私は、ゲルマンの「ベイズ」DeFinettiの「ベイズ」と同じ....されるだろう
JohnRos

1

彼らが頻繁にいると思う多くの人々(専門家以外)は、実際にはベイジアンです。これにより、議論は少し無意味になります。ベイジアン主義が勝ったと思うが、それでも彼らが頻繁にいると思うベイジアンがたくさんいると思う。事前分布を使用しないと考えているため、頻繁に使用していると考える人もいます。これは危険なロジックです。これは、事前分布(均一な事前分布または非均一な分布)ほどではないため、実際の違いはより微妙です。

(私は統計部門に正式に所属していません。私の背景は数学とコンピューターサイエンスです。この「論争」を他の非統計学者や初期のキャリアと議論するのが難しかったので書いています。統計学者。)

MLEは実際にはベイジアン法です。「MLEを使用してパラメータを推定するため、私は頻繁に活動している」と言う人もいます。これは査読付き文献で見ました。これはナンセンスであり、これは(頻繁ではないが暗示されている)神話に基づいています。

既知の平均および未知の分散を持つ正規分布から単一の数値を描画することを検討してください。この分散を呼びます。μ=0θ

XN(μ=0,σ2=θ)

次に、尤度関数を考えてみましょう。この機能は持っている2つのパラメータ、および、それが与えられ、確率を返しますの、。xθθx

f(x,θ)=Pσ2=θ(X=x)=12πθex22θ

あなたが、ヒートマップでこれをプロット想像できる x軸上 y軸に、および色(またはZ軸)を使用します。これは、等高線と色を含むプロットです。xθ

ヒートマップ

まず、いくつかの観察。単一の値を修正する場合、対応する水平スライスをヒートマップで取得できます。このスライスは、値のpdfを提供します。明らかに、そのスライスの曲線の下の領域は1になります。一方、単一の値に固定してから対応する垂直スライスを見ると、曲線の下の領域についてそのような保証はありません。 。θθx

水平スライスと垂直スライスのこの区別は非常に重要であり、この類推が、偏見に対する頻繁なアプローチを理解するのに役立つことがわかりました。

ベイズは言う誰誰かであります

このxの値に対して、の値が「十分に高い」値を与えるか?θf(x,θ)

あるいは、ベイジアンは事前の含むかもしれませんが、彼らはまだ話しているg(θ)

このxの値に対して、値が十分に高い値を与えるか?F X θ G θ θf(x,θ)g(θ)

したがって、ベイジアンはxを修正し、その等高線図(または前の図を組み込んだバリアントプロット)の対応する垂直スライスを調べます。このスライスでは、曲線の下の領域は1である必要はありません(前述したように)。ベイジアン95%信頼区間(CI)は、使用可能な領域の95%を含む区間です。たとえば、面積が2の場合、ベイジアンCIの下の面積は1.9である必要があります。

一方、フリークエンシストはxを無視し、最初に修正を検討し、次の質問をします。θ

このでは、x値が最も頻繁に表示されますか?θ

この例では、、このfrequentist問題に対する1つの答えが「所与のため、95%間に現れるおよび。 "θ X - 3 N(μ=0,σ2=θ)θx +33θ+3θ

そのため、頻度の高い人は固定値に対応する水平線に関心があります。θ

これは、頻度の高いCIを構築する唯一の方法ではありません。良い(狭い)ものでさえありませんが、しばらくの間は我慢してください。

「間隔」という言葉を解釈する最良の方法は、1次元の線上の間隔ではなく、上記の2次元平面上の領域と考えることです。「間隔」は、1次元の線ではなく、2次元平面のサブセットです。誰かがそのような「間隔」を提案する場合、「間隔」が95%の信頼性/信頼できるレベルで有効かどうかをテストする必要があります。

頻度の高い人は、各水平スライスを順番に検討し、曲線の下の領域を見て、この「間隔」の有効性をチェックします。前に言ったように、この曲線の下の領域は常に1です。重要な要件は、「間隔」内の領域が少なくとも0.95であることです。

ベイジアンは、代わりに垂直スライスを見て有効性をチェックします。繰り返しますが、曲線の下の領域は、間隔の下にあるサブ領域と比較されます。後者が前者の少なくとも95%である場合、「間隔」は有効な95%ベイズの信頼できる間隔です。

特定の間隔が「有効」であるかどうかをテストする方法がわかったので、問題は有効なオプションの中から最適なオプションをどのように選択するかです。これは黒魔術かもしれませんが、一般的には最も狭い間隔が必要です。両方のアプローチがここで一致する傾向があります-垂直スライスが考慮され、目標は各垂直スライス内で可​​能な限り間隔を狭くすることです。

上記の例では、可能な限り狭い頻度の信頼区間を定義しようとしませんでした。より狭い間隔の例については、以下の@cardinalによるコメントを参照してください。私の目標は、最適な間隔を見つけることではなく、有効性を判断する際に水平スライスと垂直スライスの違いを強調することです。95%の頻度の信頼区間の条件を満たす区間は、通常95%のベイジアンの信頼できる区間の条件を満たしません。逆の場合も同様です。

どちらのアプローチも狭い間隔を必要とします。つまり、1つの垂直スライスを検討する場合、そのスライスの(1-d)間隔をできる限り狭くする必要があります。違いは、95%が適用される方法にあります-フリークエンシーは、各水平スライスの面積の95%が間隔の下にある提案された間隔のみを見るのに対し、ベイジアンは各垂直スライスがその面積の95%であると主張します間隔の下で。

多くの非統計学者はこれを理解しておらず、垂直スライスのみに焦点を当てています。これにより、別の方法で考えてもベイジアンになります。


3
(-1)この投稿はいくつかの点でいくつかの基本的な誤解を示していると思います。どこから始めてもわからない。
枢機

1
この投稿の大部分を形成しているように見えるものに対処しましょう。与えられた例では、なので、これは完全な十分な統計量に基づく極めて重要な量です。頻度の高いCIは、一様に、すべての可能な実現に対して。の前述のプロパティのため、CIの基礎となる自然な候補です。(続き) θX2/θχ12θ(θ^,θ^u)P(θ(θ^,θ^u))=1α θXX2/θ
枢機

1
(続き)1つの選択肢はここで、は分布の番目の分位数を示します。ほぼすべてのは、代わりに、無限に狭く構築が容易なので、同等に有効な間隔を使用します。ただし、この後者の間隔は最短の間隔ではなく、簡単な数値手順で見つけることができます。要するに、答えの議論の主な前提は、ポイントを完全に見逃しているように見えます。のQ Bの Bのχ 2 1 [ X 2 / Q 1 - α / 2X 2 / Qのα / 2 ][X2/q1α,)qbbχ12[X2/q1α/2,X2/qα/2]
枢機

こんにちは@cardinal、最後の2つのコメントであなたのポイントを理解しています。実際、あなたのポイントは私が言ったことと一致していると思います:-) OK、頻繁な信頼区間を構築するためのさまざまな方法があります。私が説明した方法が有効であることを受け入れます。そして、あなたは(合理的に)私の方法が最も狭い方法ではないことを指摘します。最初のコメントはあまり役に立たなかったと思います。
アーロンマクデイド

2
@cardinal、考え直して、私の答えの終わりは役に立たず、基本的に間違っていると認めます。それを整理します。私の主な点から注意をそらします。統計部門以外の多くの人は、これについて強い意見を持っていますが、2つのアプローチの根本的な違いを理解していません。 )、しかし、違いは、ヒートマップを水平(Frequentist)または垂直(Bayesian)スライスのどちらにするかです。私はここにいるのか、ここでこの点を指摘する価値はありますか?
アーロンマク
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.