確率のベイジアン対頻繁な解釈


37

確率に対するベイジアンアプローチと頻度主義的アプローチの違いを誰かが適切に要約できますか?

私が理解していることから:

専門家の見解では、データは特定の頻度/確率(試行回数が無限に近づくにつれて発生するイベントの相対頻度として定義されます)を持つ反復可能なランダムサンプル(ランダム変数)です。基礎となるパラメータと確率は、この反復プロセス中、変動がの変動によるものであることが一定のままとしない(特定のイベント/プロセスのために固定されている)の確率分布。Xn

ベイジアンビューでは、データは固定されますが、特定のイベントの頻度/確率は変化する可能性があるため、分布のパラメーターが変化します。実際、取得するデータは、データの各セットに対して更新されるパラメーターの事前分布を変更します。

私には、イベントに特定の確率があり、変動がサンプリングにあることが合理的であると思われるため、頻度主義的アプローチがより実用的/論理的であると思われます。

さらに、研究からのほとんどのデータ分析は、容易に理解できるので、通常、頻繁なアプローチ(すなわち、信頼区間、p値を使用した仮説検定など)を使用して行われます。

頻度のp値と信頼区間のベイジアン統計的同等物を含む、頻度対ベイジアンのアプローチの解釈の簡単な要約を誰かが私に与えることができるかどうか疑問に思っていました。さらに、1つの方法が他の方法よりも好ましい特定の例が評価されます。


1
統計推論への頻繁なアプローチがより実用的であると言うならば、いくつかの会場であなたは怒っている暴徒によって攻撃されるでしょう。(OK、おそらくその声明にいくつかの誇張があります。)信頼区間が事後確率区間よりも理解しやすいことに同意しません。(とにかく、以下の私の答えを参照してくださいが何であるかを知ること以外の数学はありませんが、問題の本質に1/2
マイケルハーディ

@DilipSarwateあぁ、次回もそのことを心に留めておきます。しかし、今回はいくつかの良い答えを得たようですので、ここで終わらせようと思うかもしれません:D
BYS2

回答:


27

frequentistアプローチ、確率が意味しているれている唯一の感覚、すなわちとして、裁判のシーケンスの成功回数の制限値としてであると主張しています

p=limnkn

ここで、は成功数、nは試行回数です。特に、確率分布をパラメーターに関連付けることは意味がありません。kn

たとえば、パラメーターベルヌーイ分布からのサンプルを考えます(つまり、値1の確率と0の確率)。サンプルの成功率は次のように定義できます。X1,,Xnpp1p

p^=X1++Xnn

そして、の分布についての話の値を使用して、条件付きが、それは質問を反転しての確率分布について話し始めるためには意味がないの観測値の条件付き。具体的には、これは、信頼区間を計算するときに、信頼区間の両端をランダム変数として解釈し、「間隔が真のパラメーターを含む確率」ではなく、「パラメーターが信頼区間内」。p^ppp^

ではベイジアンアプローチは、我々は世界について、当社の不確実性を定量化するように確率分布を解釈します。特に、これは、パラメーターが固定されていても、その真の値に関する知識が制限される可能性があるため、パラメーターの確率分布について有意義に話すことができることを意味します。上記の例では、ベイズの法則を使用して確率分布を反転し、f(p^p)

f(pp^)posterior=f(p^p)f(p^)likelihood ratiof(p)prior

問題は、事前分布を分析に導入する必要があることです。これは、実際の値を見る前にの値についての私たちの信念を反映しています。頻度の高いアプローチでは、事前確率の役割がしばしば批判されます。それは、そうでなければ厳格で確率のオブジェクトの世界に主観性を導入すると主張されるためです。pXi

ベイジアンアプローチでは、信頼区間のことは話さなくなりましたが、より自然な解釈を持つ信頼区間の代わりに-信頼区間が95%の場合、パラメーターが区間内にある確率95%を割り当てることができます。


6
一方、頻繁なアプローチに対する批判の1つは、人々が確率についてどのように考えるかと二乗していないということです。...人々は恐竜の絶滅、あるいは明日昇る太陽のような「確実性」の「確率」のような単発のイベントの「確率」の話をどのように考えてみましょう

14
一般にベイズの解釈を与えることができる有用な自己一貫性のある結果を生成する任意frequentist方法、及び:またfrequentistとベイズアプローチの間のギャップが実用レベルに大きなとほぼないことを言及するのが良いかもしれないその逆。特に、ベイジアン項での頻度計算を再キャストすると、通常、特定の事前確率が与えられた場合の事後計算のルールが生成されます。次に、「まあ、それは実際には前提とする合理的なものですか?」と尋ねることができます。
イルマリカロネン

この答えをありがとう、それは私の一般的な理解と一致しています。しかし、ベイジの法則式でデータ/サンプルの成功率(f(p-hat))の確率をどのように見つけることができるのか、1つだけ明確にできるのではないかと思いました。私はいくつかの実際の例を読んでおり、f(p-hat | p)と以前のf(p)を導き出す方法を一般的に理解していますが、f(p-hat)は今のところ私を避けています。いくつかのリソースへのリンクがあれば、それは素晴らしいでしょう:D。ありがとう!
-BYS2

@IlmariKaronen。信頼区間として表現された特定の結果を生成する研究があった場合、データを再キャストし、代わりにベイジアン分析を行うことができると言っているのですか?そして結果は多かれ少なかれ一貫していますか?
-BYS2

@Karonenの言うことは完全に正確ではありません。最も一般的な2つの頻度分析手法は、ポイント推定(通常は最尤推定)と仮説検定であり、どちらも実際のベイジアン解釈を実際に与えることはできません。
ジュール

20

Frequentistの確率の解釈については正しいです。このセットアップのランダム性は、不完全なサンプリングに起因するだけです。ベイジアンの観点からは、確率はエージェントの世界に対する不確実性を反映するという点で「主観的」です。分布のパラメーターが「変化する」と言うのはまったく正しくありません。パラメーターに関する完全な情報はないため、より多くの情報を収集すると、パラメーターに関する不確実性が変わります。

どちらの解釈もアプリケーションで役立ち、どちらがより役立つかは状況によって異なります。Andrew Gelmanのブログで、ベイジアンアプリケーションに関するアイデアを確認できます。多くの状況で、ベイジアンが「前者」と呼ぶものが頻繁にあります。実際、Bernstein-von Misesの定理によれば、ベイジアンとフリークエンティストの推論は実際には、かなり弱い仮定の下で漸近的に等価です(ただし、無限次元分布では定理が失敗します)。これに関する多くの参照をここで見つけることができます。

あなたが解釈を求めたので:科学実験をそれがするようにモデル化するとき、フリークエンティストの視点は非常に理にかなっていると思います。機械学習の一部のアプリケーションや帰納的推論(または学習)のモデリングでは、ベイジアン確率がより理にかなっています。固定された「真の」確率でイベントをモデル化することは信じがたいように思える状況がたくさんあります。

ラプラス戻るおもちゃのでは、明日太陽が昇る確率を考慮してください。頻度論の観点から、確率を定義するために無限に多くの宇宙のようなものを仮定する必要があります。ベイジアンのように、宇宙は1つだけです(少なくとも、多くの宇宙は必要ありません)。朝が昇るという不確実性は、明日には再び昇るという非常に強力な事前の信念に押しつぶされています。


17

確率のベイジアン解釈は、ある程度の解釈です。

1/2

1/2


2
RT Coxの古典的な論文よりも、より狭い頻度のアプローチとベイジアンアプローチの一般性(論理の拡張)の限界を熟考するのに、おそらくこれ以上良い場所はないでしょう。
-gwr

2
コックスはまた、ジョンズ・ホプキンスが出版した「推定推論の代数」というタイトルの本を書きました。@gwr
マイケルハーディ

1
イアン・ハッキングは、彼の著書「確率と帰納論理入門」でそれをうまく述べています。「ベイジアンは、個人の確率または信念の程度を個々の命題に結びつけることができます。強引な頻度のドグマティストは、確率は一連の出来事にのみ結びつけられると考えています。」
Buttons840

9

クリスは、確率に対する2つのアプローチを適切に区別する素敵な単純化した説明をします。しかし、頻繁に発生する確率の理論は、単に成功の長距離の割合を見ているだけではありません。また、分布からランダムにサンプリングされたデータを考慮し、データの特定のタイプの平均を取ることにより、平均や分散などの分布のパラメーターを推定します(例:平均は観測の算術平均です。頻度論は確率を関連付けますサンプリング分布と呼ばれる推定値を使用します。

周波数理論では、サンプルから平均化することによって得られる平均などのパラメーターについて、推定値が真のパラメーターに収束することを示すことができます。サンプリング分布は、推定が固定サンプルサイズnのパラメーターにどれだけ近いかを記述するために使用されます。クローズは、精度の尺度(平均二乗誤差など)によって定義されます。

クリスは、ベイジアンが事前確率分布をアタッチする平均などのパラメーターを指摘します。次に、データのベイズのルールを使用して、パラメーターの事後分布を計算します。ベイジアンの場合、パラメーターに関するすべての推論はこの事後分布に基づいています。

頻繁に使用される信頼区間は、パラメーターの妥当な値の間隔です。それらの構成は、間隔を生成するために使用されるプロセスが独立したサンプルに対して何度も繰り返される場合、実際にパラメーターの真の値を含む間隔の割合が少なくとも事前に指定された信頼レベル(たとえば95% )。

ベイジアンは、パラメータに事後分布を使用して、信頼できる領域を構築します。これらは、事前に指定された確率(0.95など)を取得するために後方分布が統合されるパラメーター空間内の単なる領域です。信頼できる領域は、ベイジアンによって、パラメータの真の値を含む可能性が高い(たとえば、事前に指定された0.95)領域として解釈されます。


1
信頼できる領域は、パラメーターの真の値を含む可能性が高い(事前に指定された0.95など)確率を持つ領域として、ベイジアンによって解釈されます。パラメータがランダム変数である場合、これはどのように可能ですか?

@Procrastinatorさて、多分、事前に指定された高い割合のパラメータ分布をカバーしていると言った方がいいでしょう。しかし、Xが分布fの確率変数であり、そのための信頼できる領域を構築する場合、その領域は、確率変数の実現がその領域に存在する確率を表します。
マイケルR.チャーニック

この説明に同意します。確率変数の実現はパラメーターの真の値ではないことを明確にすることが重要です。

@Procrastinatorそれはあなたが提起する興味深いポイントです。ただし、ベイジアン確率の私の理解では、多くのベイジアンは、問題のパラメーターの単一のTRUE値があるという古典的な統計学者に同意します(固定ですが不明です)。それは不確実ための知識の私達の不完全な状態で配布され、このパラメータについて。このように考えると、マイケル・チャーニックの最初の声明は有効だと思いませんか?
-BYS2

2
θ0=1(1,100)

2

「現実世界」の観点から、私は、少なくとも3つの主要なシナリオに適用される、頻度主義者と古典的またはベイジアンの「解決策」との間に1つの大きな違いを見つけます。方法論の選択の違いは、母集団の確率の影響を受けるソリューションが必要か、個々の確率の影響を受けるソリューションが必要かによって異なります。以下の例:

  1. 特定の年に40歳以上の男性が死亡し、生命保険の支払いが必要になるという5%の確率がわかっている場合、保険会社は5%の人口割合を使用してコストを見積もることができますが、40歳以上の男性はそれぞれ5%が死ぬ可能性は...意味がありません... 5%は100%が死ぬ可能性があるためです-これは頻繁なアプローチです。個人レベルでは、イベントが発生する(100%の確率)か、発生しない(0%の確率)のいずれかですが、この限られた情報に基づいて、100%の死亡確率を持つ個人を予測することはできません。 「平均化された」母集団の確率は、個人レベルでは役に立たない。

  2. 上記の議論は建物の火災にも同様に当てはまります。そのため、人口のすべての建物にスプリンクラーが必要です。

  3. 上記の両方の議論は、情報システムの侵害、損害、または「ハッキング」にも同様に当てはまります。人口の割合は役に立たないため、すべてのシステムを保護する必要があります。


2
私はこれらの3つの例のいずれにおいても頻繁なアプローチを認識していません。それらはすべて、レトロスペクティブに依存しているようで、したがって、役に立たない-古典的なモデルでは使用されていない確率の概念です。たとえば、「イベントが発生するか、発生しないかのどちらか」という主張は些細なことですが、確率とは無関係です。
whuber

0

解釈の選択は質問に依存します。偶然のゲームのオッズを知りたい場合、古典的な解釈が問題を解決しますが、フェアサイコロには記憶がないため統計データは役に立ちません。

過去の経験に基づいて将来のイベントを予測したい場合、頻繁な解釈は正確で十分です。

過去のイベントが発生したかどうかがわからず、発生した確率を評価したい場合は、以前の信念、つまり、イベントが発生する可能性について既に知っているものを取得し、獲得時に信念を更新する必要があります新しいデータ。

質問はある程度の信念に関するものであり、各人が事前確率について異なる考えを持っている可能性があるため、解釈は必然的に主観的、別名ベイジアンです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.