ベータ配布の背後にある直感とは何ですか?


438

免責事項:私は統計学者ではなく、ソフトウェアエンジニアです。統計に関する私の知識のほとんどは独学から得たものなので、ここでは他の人にとってはささいな概念の理解にまだ多くのギャップがあります。したがって、回答に具体性の低い用語とより多くの説明が含まれていれば、非常に感謝します。おばあちゃんと話していると想像してください:)

私が把握しようとしている自然ベータ分布をどのようにそれぞれの場合に、それを解釈することはのために使用すべきかと- 。たとえば、正規分布について話している場合、電車の到着時間として説明することができます。最も頻繁にちょうど間に合うように到着し、少し少ない頻度で1分早くまたは1分遅れて、非常にまれに差で到着することはありません平均から20分。均一配布は、特に、宝くじの各チケットのチャンスを説明します。二項分布は、コインフリップなどで説明できます。しかし、ベータ分布のそのような直感的な説明はありますか?

たとえば、およびとしましょう。この場合のベータ分布は、次のようになります(Rで生成):α=.99β=.5B(α,β)

ここに画像の説明を入力してください

しかし、実際にはどういう意味ですか?Y軸は明らかに確率密度ですが、X軸には何がありますか?

この例または他の例を使用して、説明をいただければ幸いです。


13
y軸は確率ではありません(定義上、確率は区間外側にあることはできないため、このプロットはまで(原則として)拡大します)。それは確率密度です:単位あたりの確率(そしてをレートとして記述しました)。[0,1]50xx
whuber

4
@whuber:ええ、私はPDFが何であるかを理解しています-それは私の説明の間違いでした。有効なメモをありがとう!
ffriend

1
参照を見つけてみますが、フォームの一般化されたベータ分布のより奇妙な形状のいくつかには、物理学などのアプリケーションがあります。また、データ不足の環境でエキスパートデータ(最小、モード、最大)に適合させることができ、三角分布(残念ながらIEでよく使用される)を使用するよりも優れていることがよくあります。a+(ba)Beta(α1,α2)
SecretAgentMan

鉄道会社のDeutsche Bahnと一緒に旅行したことはありません。あなたは楽観的ではなくなるでしょう。
ヘニング

回答:


621

短いバージョンでは、ベータ分布は確率の分布表すものとして理解できるということです。つまり、確率が何であるかわからない場合、可能性のあるすべての値を表します。これについて、私のお気に入りの直感的な説明を次に示します。

野球を次の誰もが精通している打率 -単に回数は、プレイヤーは、彼が打席に上がる回数で割っベースヒットを取得します(それはちょうど間の割合だ01)。.266一般的には平均的な打撃平均.300と見なされますが、優れたものと見なされます。

野球選手がいて、シーズン中のバッティング平均がどうなるかを予測したいとします。これまでのところ、彼の打撃平均を使用できると言うかもしれませんが、これはシーズンの開始時に非常に貧弱な測定値になります!プレーヤーが一度バットに上がってシングルを獲得した場合、彼のバッティングアベレージは短時間1.000ですが、三振した場合、彼のバッティングアベレージは0.000です。5〜6回バットに上がってもそれほど良くはなりません。ラッキーストリークを獲得して平均1.000、または不運なストリークを獲得し、平均を得ることができ0ます。あなたはその季節を打つでしょう。

最初の数ヒットの打率が最終的な打率の良い予測因子ではないのはなぜですか?プレーヤーの最初の打席がストライクアウトである場合、シーズン中にヒットしないと誰も予測しないのはなぜですか?なぜなら、私たちは以前の期待に応えているからです。私たちは歴史の中で、シーズンで最も打率のようなものの間で推移していることを知っている.215.360、どちらかの側にいくつかの非常にまれな例外を除いて。プレーヤーが開始時に連続して数回ストライクアウトした場合、それは平均より少し悪くなることを示しているかもしれませんが、おそらくその範囲から逸脱しないことはわかっています。

二項分布(一連の成功と失敗)で表すことができるバッティング平均問題を考えると、これらの以前の期待(統計では単に事前と呼ぶ)を表す最良の方法は、ベータ分布を使用することです。プレーヤーが最初のスイングをするのを見る前に、彼のバッティング平均は大体予想しています。ベータ分布の領域は、(0, 1)確率のように、したがって、私たちは正しい軌道に乗っていることを既に知っていますが、このタスクに対するベータの適切性はそれをはるかに超えています。

私たちは、プレイヤーのシーズン長い打率は周りの最も可能性が高くなりますことを期待し.27、それが合理的から及ぶ可能性があること.21.35。これは、パラメーターおよびベータ分布で表すことができます。α=81β=219

curve(dbeta(x, 81, 219))

ベータ(81、219)

これらのパラメーターを思いついた理由は2つあります。

  • 平均はαα+β=8181+219=.270
  • プロットからわかるように、この分布はほぼ完全に(.2, .35)-打率の合理的な範囲内にあります。

x軸がベータ分布密度プロットで何を表すかを尋ねました。ここでは、彼のバッティング平均を表します。したがって、この場合、y軸が確率(正確には確率密度)であるだけでなく、x軸も同様であることに注意してください(打率は結局、ヒットの確率です)。ベータ分布は、確率の確率分布表しています。

しかし、ベータ版の配布が非常に適切な理由は次のとおりです。プレーヤーがシングルヒットしたと想像してください。彼のシーズンの記録は今1 hit; 1 at batです。その後、確率を更新する必要があります。新しい情報を反映するために、この曲線全体を少しだけシフトします。これを証明するための数学は少し複雑ですが(ここに示されています)、結果は非常に単純です。新しいベータ版の配布は次のとおりです。

Beta(α0+hits,β0+misses)

ここで、およびは開始したパラメーターです。つまり、81および219です。したがって、この場合、 は1増加し(1回のヒット)、はまったく増加しません(まだミスはありません) )。つまり、新しいディストリビューションは、または:α0β0αβBeta(81+1,219)

curve(dbeta(x, 82, 219))

ここに画像の説明を入力してください

わずかに変更されていることに注意してください。変更は実際には肉眼では見えません。(それは、1回のヒットが実際には何も意味しないためです)。

ただし、シーズン中にプレーヤーがヒットすればするほど、新しい証拠に対応するために曲線がよりシフトし、さらに、より多くの証拠があるという事実に基づいて曲線が狭くなります。シーズンの途中で、彼が300回打つことになって、そのうち100回打ったとしましょう。新しい配布は、または次のようになります。Beta(81+100,219+200)

curve(dbeta(x, 81+100, 219+200))

ここに画像の説明を入力してください

曲線が以前よりも薄くなり、右側に移動していることに注目してください(打撃平均が高い)。プレーヤーの打撃平均がよりよくわかります。

この式の最も興味深い出力の1つは、結果として得られるベータ分布の期待値です。これは基本的には新しい推定値です。ベータ分布の期待値はであることを思い出してくださいαα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270

このように、ベータ分布は、確率分布表現するための最良である確率の -私たちは確率が進んでいるかわからない場合は、しかし、我々はいくつかの合理的な推測を持っています。


5
@ffriend:助けてくれてうれしいです
デビッドロビンソン

11
これは、レビュー数の異なるAmazonの売り手のランキングを使用したJohn Cookの同様の例です。コメントでの優先順位
V.

4
α0=β0=1/2

4
+データが増えたときにディストリビューションを更新する方法の説明が気に入っています。
マイクダンラベイ

2
@ user27997これらは、0.27の望ましい平均と、バッティング平均について非常に大まかに現実的な標準偏差(約.025)を与えました。ちなみに、ここで目的の平均と分散からαとβを計算する方法について説明します
デビッドロビンソン

48

ベータ分布は 0のような1に、限られた範囲を持っているものをモデル化するために使用されます。

例は、成功と失敗のような2つの結果のみを持つ実験での成功の確率です。限られた数の実験を行い、いくつかの実験が成功した場合、ベータ分布によってそれが何を伝えるかを表すことができます。

別の例は、順序統計です。たとえば、複数の(たとえば4つの)一様な0,1乱数を生成して並べ替えた場合、3番目の乱数の分布はどうなりますか?

nss>1Beta(s+1,(ns)+1)

それについての詳細...


41

(0,1)

U1Unn(0,1)U(1)U(n)(U1,,Un)U1UnU(1)=min(Ui)U(n)=max(Ui)U(k)Beta(k,n+1k)k=1,,n

この結果は、ベータ分布が数学に自然に現れることを示しており、数学に興味深い用途がいくつかあります。


28

2つの主な動機があります。

まず、ベータ分布はベルヌーイ分布の前に共役です。つまり、コインフリップの繰り返しによって推定するコインのバイアスなどの未​​知の確率がある場合、コインフリップのシーケンスによって未知のバイアスに誘導される尤度はベータ分布です。

第二に、ベータ分布が指数関数族である結果は、十分な統計のセットに対する最大エントロピー分布になるということです。ベータ分布の場合、これらの統計は、と用における。つまり、サンプルセットについてこれらの十分な統計の平均測定値のみを保持する場合、サンプルの分布について行うことができる最小の仮定は、ベータ分布であるということです。log(x)log(1x)x[0,1]x1,,xn

ベータ分布は一般に[0,1]を超えるものをモデル化するのに特別なものではありません。多くの分布はそのサポートに合わせて切り捨てられることが多く、多くの場合に適用できるためです。


23

ここに画像の説明を入力してください

いくつかのeコマースWebサイトの売り手が500の評価を受け取り、そのうち400が良い、100が悪いと仮定しましょう。

これは、長さ500のベルヌーイ実験の結果であり、400の成功(1 =良好)をもたらし、基礎となる確率は不明です。p

0.8 = 400/500であるため、売り手の評価の点で素朴な品質は80%です。しかし、評価の点では「真の」品質はわかりません。

理論的には、「真の」品質の売り手は、500の評価のうち400の良い結果になる可能性があります。p=77%

図の先のとがった棒グラフは、シミュレーションで500の評価のうちの与えられた「真」の 400が良好だった頻度を表します。バープロットは、シミュレーションの結果のヒストグラムの密度です。p

ご覧のように、および(オレンジ)のベータ分布の密度曲線は、棒グラフ(シミュレーションのヒストグラムの密度)をしっかりと囲みます。α=400+1β=100+1

したがって、ベータ分布は基本的に、実験の結果が与えられた場合のベルヌーイ実験の成功確率がなる確率を定義します。p

library(ggplot2)

# 90% positive of 10 ratings
o1 <- 9
o0 <- 1
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim1 <- data.frame(p=rep(0:M/M,v))
df_beta1 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

# 80% positive of 500 ratings
o1 <- 400
o0 <- 100
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim2 <- data.frame(p=rep(0:M/M,v))
df_beta2 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

ggplot(data=df_sim1,aes(p)) +
    scale_x_continuous(breaks=0:10/10) +

    geom_histogram(aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta1 ,aes(p,y),colour=I("red"),size=2,alpha=.5) +

    geom_histogram(data=df_sim2, aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta2,aes(p,y),colour=I("orange"),size=2,alpha=.5)

http://www.joyofdata.de/blog/an-intuitive-interpretation-of-the-beta-distribution/


3
ご協力ありがとうございます!しかし、私は何かに困惑しています。ヒストグラムの凡例はベータ密度を示していると述べていますが、これらは二項シミュレーションの結果(「シミュレーションで発生した頻度」)も説明していると主張するようです。しかし、この2つは異なるものです。たとえ、図ではかなり近いように見えますが。(これは、大きなパラメーターを持つベータの準正規性と二項分布の中心極限定理の結果です。)
whuber

それは良い点です!しかし、私はそれを適切に言い換える方法がわかりません。もちろん、ヒストグラムをプロットするだけであれば、もちろん、その大きさを考えると、多くの密度は表示されません。はい、ヒストグラムは実際には縮小されているだけでなく、実際には元のヒストグラムの(推定)密度であると推測されます。実行回数を考えると、係数を計算して線形に縮小することもできますが、実際に比較したいものとほぼ同じに見えますが、ベータの密度はシミュレーションの結果の密度です(元のヒストグラムの密度)。
ラファエル

8

これまでのところ、回答の大部分は、サンプルの割合の事前分布として生成されるベータRVの理論的根拠をカバーしており、1つの巧妙な回答が統計を順序付けるベータRVに関連しています。

ベータ分布は、2つのGamma(k_i、1)RV間の単純な関係からも発生します。i= 1,2はそれらをXおよびYと呼びます。X/(X + Y)にはベータ分布があります。

ガンマRVには、独立したイベントの到着時間をモデル化するための理論的根拠が既にあるので、それはあなたの質問ではないので、説明しません。しかし、順番に実行される2つのタスクの1つを完了するのに費やす「時間の一部」は、自然にベータ配布に役立ちます。


1
+1ガンマを使用してベータ分布を作成することについて指摘してくれてありがとう。ベータをディリクレに一般化する場合、分母にガンマを追加するだけだと聞いたことがあります。統計学者はそれを知っているだけかもしれませんが、私にとっては、カテゴリカルな観測の信頼区間を見るときに本当に役立ちました。
マイクダンレイビー

4

私の直感では、成功の現在の割合「」と失敗の現在の割合「」の両方を「重み付け」すると言います:。ここで、定数はです。成功の貢献のための「重み」のようなものです。、障害者の貢献のための「重み」のようなものです。2次元のパラメーター空間(1つは成功への貢献、もう1つは失敗への貢献)があるため、考えたり理解したりすることが難しくなります。x(1x)f(x;α,β)=constantxα1(1x)β11/B(α,β)αβ


3

上記の例では、パラメータは前年のアルファ= 81とベータ= 219です(打席で300ヒット中81ヒットまたは(81および300-81 = 219))。

81ヒットと219アウトという事前の仮定を彼らが何と呼ぶか​​はわかりませんが、英語では、それは事前の仮定です。

季節が進むにつれて曲線が左または右にシフトし、モーダル確率が左または右にシフトするが、まだ曲線があることに注意してください。

Laa of Large Numbersが最終的に定着し、打率を.270に戻すかどうかは疑問です。

一般に、アルファとベータを推測するには、以前の発生の完全な数(バットで)、既知の打撃平均、合計ヒット(アルファ)、ベータまたは総計から失敗を引いたもの)を取得します-あなたの式があります。次に、示されているように追加データを処理します。


2

粒度分布を使用している場合、ベータ分布は非常に便利です。粒度分布をモデル化する場合は状況ではありません。この場合は、右側に制限されていないTanh分布を使用することをお勧めします。 F(X)=tanh((x/p)n)

ちなみに、顕微鏡観察からサイズ分布を作成し、粒子分布の数があり、ボリューム分布を操作することが目的の場合はどうなりますか?右側に限定された数の元の分布を取得することはほぼ必須です。したがって、新しいボリューム分布では、作業中の間隔の中央値や中サイズも表示されないことが確実であるため、変換はより一貫しています。また、グリーンランドアフリカの影響を回避できます。

規則的な形状、つまり球体やプリズムがある場合、変換は非常に簡単です。数値ベータ分布のアルファパラメータに3つのユニットを追加し、ボリューム分布を取得する必要があります。


1
サイトへようこそ。これはOPの質問に対する答えとして意図されたのですか?これがベータ配布の背後にある直観にどのように関連しているかを明確にできますか?
グン

ベータ版の配布に関する直感を明確にするために編集してください。
Glen_b

1

ベータ配布の背後には直感がないと思います!ベータ版の配布は、FIX範囲を持つ非常に柔軟な配布です!また、整数aとbの場合、対処するのも簡単です。また、ベータ版の多くの特別なケースには、均一な分布のような固有の意味があります。そのため、データをこのようにモデル化する必要がある場合、またはわずかに柔軟性を高めたい場合は、ベータ版が非常に適しています。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.