なぜ誰かが、従来のアプローチの代わりに「情報価値のない」不適切な事前のベイジアンアプローチを使用するのでしょうか?


44

関心が単にモデルのパラメーターを推定するだけで(ポイントワイズおよび/または間隔推定)、以前の情報が信頼できず、弱い場合(これは少しあいまいですが、選択のシナリオを確立しようとしています)事前は困難です)...なぜ誰かが、古典的なアプローチの代わりに「非情報的」な不適切な事前確率でベイジアンアプローチを使用することを選択するのでしょうか?


1
ベイジアン統計のこの議論の余地のある部分について、このような興味深い考えをありがとう。私はあなたのポイントを読んで比較しています。正式な規則、実用性、解釈の観点からその使用を検証する興味深い議論があります。ある時点で答えを選択しますが、これは非常に難しい作業になると思います。

回答:


24

情報量の少ない事前分布を使用している場合でも、ベイジアンアプローチを使用する2つの理由:

  • 収束の問題。いくつかの分布(2項分布、負の2項分布、および一般化されたガンマは、私が最もよく知っている分布です)があります。「ベイジアン」フレームワーク、および特定のマルコフ連鎖モンテカルロ法(MCMC)を使用して、これらの収束の問題を本質的に計算能力で処理し、そこから適切な推定値を取得できます。
  • 解釈。ベイズ推定値+ 95%信頼区間は、頻繁な推定値+ 95%信頼区間よりも直感的に解釈できるため、単純に報告する方がよい場合もあります。

3
MCMCは実際にはベイジアン方式ではありません。収束が問題である場合、ターゲットの尤度(事後ではない)から単純に推定値を引き出すことができます。
-scottyaz

16

結果は非常に似ていますが、その解釈は異なります。

信頼区間は、実験を何度も繰り返し、95%の時間で真のパラメーターを取得できるという概念を意味します。ただし、95%の確率でキャプチャできるとは言えません。

一方、信頼できる間隔(ベイジアン)では、間隔が真の値をキャプチャする95%の「チャンス」があると言うことができます。更新:よりベイジアン的な言い方をすれば、結果に対して95%の自信を持つことができます。

P(Data|Hypothesis)P(Hypothesis|Data)


1
ここで混乱するかもしれませんが、「真の価値」はどのようにベイジアンフレームワークに適合しますか?たぶん、あなたは後方モード(または平均、または..など)に言及していますか?
マクロ

平均値、平均差、回帰スロープなど、サンプル統計を使用して推定しているパラメーター(母集団値)に言及しています。
ドミニクコントワ

1
はい。ただし、「真の値」は、パラメーターが定数であることを示していません(つまり、その分布は点質量です)。事後分布を見るという概念全体は、そのようにパラメーターを考えることに反対しているようです。
マクロ

9

±2σ

パラメーターの完全な事後分布を提供することは、ベイジアンアプローチの利点です。従来の方法よりも、通常、尤度関数のモードで表されるパラメーターの点推定のみを提供し、漸近正規性の仮定と2次近似を使用します。不確実性を記述する対数尤度関数の ベイジアンフレームワークでは、パラメーターの完全な事後分布が利用できるため、不確実性を評価するために近似を使用する必要はありません。さらに、ベイジアン分析は、古典的な統計の信頼区間の概念よりも簡単に解釈されるパラメーターまたはパラメーターの関数の信頼できる区間を提供できます(Congdon、2001)。

そのため、たとえば、2つのパラメーターの差について信頼できる間隔を計算できます。


6

サー・ハロルド・ジェフリーズは、ベイジアンアプローチの強力な支持者でした。彼は、拡散不適切な事前分布を使用すると、結果のベイジアン推論は、頻度論的推論アプローチと同じになることを示しました(つまり、ベイジアンの信頼できる領域は、頻度論的信頼区間と同じです)。ほとんどのベイジアン人は、適切な有益な事前を主張しています。不適切な事前分布には問題があり、一部の事前分布は本当に情報価値がないと主張することができます。私は、これらのジェフリーズの事前を使用するベイジアンがジェフリーズの信者としてそれを行うと思います。ベイジアンアプローチの最も強力な擁護者の一人であるデニス・リンドリーは、ジェフリーズを大いに尊敬していたが、有益な事前事項を主張した。


1
回答の最初の数行に対して+1。私の意見では、「情報価値のない」優先順位よりもジェフリーズの優先順位を選択する理由は、単にジェフリーズの支持者としてではありません。それは、それが実際に仮定を行わないようなものであるのに対し、いわゆる非情報的な事前はパラメータ化について仮定をしているからです。
ニールG

1
@NeilGまた、情報のない事前情報を使用して素朴な読者が解釈できるように、本質的に「フェイルセーフ」と同じ意味で「失敗頻度」に使用する人もいます。
Fomite

@EpiGrad:どういう意味ですか?(申し訳ありませんが、頻繁な統計に関する私の理解は非常に貧弱です。)
ニールG

1
@NeilG本質的には、ジェフリーの事前知識により、フリークエンシー分野で訓練された誰かが期待しているものが得られることを利用しています。配置されたベイジアン手法での作業があまり浸透していないとき、それはまともな中間です。
フォマイト

@NeilGまた、私の答えのように、MCMCを使用して収束問題を回避する頻度の高い分析を行う場合、ジェフリーの事前知識も役立つことを忘れていました。
フォマイト

6

ベイジアンアプローチには実用的な利点があります。多くの場合、必須である推定に役立ちます。また、新しいモデルファミリを有効にし、より複雑な(階層的、マルチレベル)モデルの構築を支援します。

たとえば、混合モデル(分散パラメーターを持つ変量効果を含む)では、低レベルのパラメーター(モデル係数。これはREMLと呼ばれます)を無視して分散パラメーターを推定すると、より良い推定が得られます。ベイジアンアプローチはこれを自然に行います。これらのモデルでは、REMLを使用しても、分散パラメーターの最尤(ML)推定値はゼロまたは下方向に偏っていることがよくあります。分散パラメーターの適切な事前分布が役立ちます。

ポイント推定(MAP、最大事後確率)が使用される場合でも、事前分布によりモデルファミリが変更されます。やや共線的な変数の大きなセットを伴う線形回帰は不安定です。L2正則化は改善策として使用されますが、ガウス(非情報)事前およびMAP推定によるベイジアンモデルとして解釈できます。(L1正則化は異なる事前分布であり、異なる結果をもたらします。実際、ここでは事前分布は多少情報を提供するかもしれませんが、単一のパラメーターではなく、パラメーターの集合的性質に関するものです。)

そのため、物事を成し遂げるためだけにベイジアンアプローチが必要な、いくつかの一般的で比較的単純なモデルがあります!

機械学習で使用される潜在ディリクレ割り当て(LDA)など、より複雑なモデルでは、事態はさらに有利になります。また、ディリクレ過程に基づいたモデルなど、一部のモデルは本質的にベイジアンです


6

practicalθ^=θ^(x1,,xn)ΘfXn+1Θ(xn+1θ)fXn+1Θ(xn+1θ^)θ^

fXn+1X1,,Xm(xn+1x1,,xn)=fXn+1Θ(xn+1θ)π(θx1,,xn)dθ.

6
βlog(σ2)

@Cyanのコメントに関連

4

いくつかの理由があります。

  1. ±SE
  2. 通常、大規模なサンプルプロパティは、対応する頻度の高いアプローチとまったく同じです。
  3. 「客観的ではない」と非難される恐れがあるため、実際にどれだけ知っていても、事前に同意することにはかなりの抵抗があります。情報価値のない事前分布(「事前分布なし」)を使用することで、そのような問題がないふりをすることができ、一部のレビュアーからの批判を避けることができます。

今、情報価値のない事前分布を使用することの欠点については、私が最も重要だと思うものから始めて、非常に重要な技術的側面のいくつかに向かっています:

  1. あなたが得るものの解釈は、正直なところ、頻繁な推論の場合とほぼ同じです。頻繁な最尤推論をベイジアン最大事後推論として再ラベル付けすることはできません。これにより、複数の比較、データの複数の見方についての心配がなくなり、仮説を立てる確率に関してすべてのステートメントを解釈できます本当です。確かに、タイプIエラーなどは頻繁に発生する概念ですが、科学者が虚偽の主張をすることに気を配る必要があり、上記を行うと問題が発生することを知っています。これらの問題の多くは解消されます(または、少なくとも問題は少なくなります)。階層モデルに物事を埋め込み、経験的なベイズを行うと、しかし、通常は、モデルに事前確率の基礎を含めることで、分析手順を介して暗黙的に事前確率を生成することになります(そして、その代わりに明示的に事前確率を定式化することです)。私の意見では、これらの考慮事項は頻繁に無視されます。ベイジアン手法を使用すると問題ないという言い訳のfig-leafでベイジアンp-ハッキングを実行します(つまり、多重度を導入しますが、無視します)満たす必要があります)。
  2. より「技術的な」側面では、適切な事後が保証されていないため、情報価値のない事前確率には問題があります。多くの人々がベイジアンモデルに情報価値のない事前分布を適合させ、事後分布が適切でないことに気付いていません。その結果、本質的に意味のないMCMCサンプルが生成されました。

最後の点は、適切な事後を確保するためにかなり曖昧な(またはわずかに情報が少ない)優先順位を好むことの議論です。確かに、これらからサンプリングすることも難しい場合があり、後部全体が調査されていないことに気付かない場合があります。しかし、あいまいな(しかし適切な)事前分布をもつベイジアン手法は、多くの分野で、頻繁な観点から非常に優れた小さなサンプルプロパティを持つことが示されており、それらを使用するための引数として、確かにそれを見ることができますが、少し多くのデータではほとんどありません情報のない事前分布を使用した方法との違い。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.