ベイジアン統計を教えるための簡単な実例?


10

ベイジアン統計を教えるための「実世界の例」をいくつか見つけたいと思います。ベイジアン統計により、以前の知識を正式に分析に組み込むことができます。学生がベイジアン統計を最初に使用したい理由の動機をよりよく理解できるように、事前知識を分析に組み込んだ研究者の簡単な実例を学生に提供したいと思います。

研究者が以前の情報を正式に組み込んでいる、母集団の平均、比率、回帰などの推定など、実際の簡単な例を知っていますか?ベイジアンも「非情報」事前分布を使用できることを知っていますが、私は特に、情報先行(つまり、実際の事前情報)が使用される実際の例に興味があります。


IQはかなり良い例だと思います。
hejseb

厳密な答えではありませんが、コインを3回反転させて頭が2回上がった場合、生徒はその頭が尾の2倍であるとは信じません。
Bernhard

1
あなたが本当に自分で書いたこの回答をチェックできます:stats.stackexchange.com/a/134385/61496
Yair

おそらく、頻度主義の確率/推定に適用できるベイズ規則と、「確率」が信念の要約であるベイズ統計を融合させていますか?
AdamO

回答:


6

ベイジアン検索理論は、ベイズ統計の興味深い現実のアプリケーションであり、海で失われた船を検索するために何度も適用されてきました。まず、マップは正方形に分割されます。各正方形には、最新の既知の位置、方向、欠落時間、電流などに基づいて、失われた血管を含む事前確率が割り当てられます。さらに、各正方形には、血管が実際にその正方形にある場合、血管を見つける条件付き確率が割り当てられます。水深のようなもの。これらの分布は、肯定的な結果を生成する可能性が最も高いマップの正方形を優先するために組み合わされます。これは、必ずしも船が存在する可能性が最も高い場所ではなく、実際に船を見つける最も可能性の高い場所です。


1
ニース、これらは面白い本「死ぬことのない理論:ベイズのルールが謎のコードを解読したり、ロシアの潜水艦を追い詰めたり、2世紀にわたる論争から浮上した勝利」に記載されている種類のアプリケーションです。また、チューリングはこの種の推論を使用して謎を解きました。
jpmuc

確率的ですが、ベイジアンですか?
Andrew

5

伝統的な説明例であれば、シリアル番号から生産量や人口サイズを推定することは興味深いと思います。ここでは、離散的な均一分布の最大値を試しています。事前の選択に応じて、最大尤度とベイズ推定は非常に透過的な方法で異なります。

おそらく最も有名な例は、第二次世界大戦中のドイツの戦車の生産率を、(Ruggles and Brodie、1947)によって頻繁に使用されている設定で行われた戦車のシリアル番号バンドと製造業者コードから推定することです。ベイジアンの視点からの代替の分析は、有益な事前確率を使用して(Downey、2013)、不適切な非有益な事前確率を使用して(Höhleand Held、2004)で行われました。(Höhleand Held、2004)による研究には、以前の治療に関する文献への言及が多く含まれており、このサイトではこの問題についてさらに議論があります。

出典:

第3章、ダウニー、アレン。Think Bayes:Pythonのベイジアン統計。「O'Reilly Media、Inc。」、2013年。

ウィキペディア

Ruggles、R .; Brodie、H.(1947)。「第二次世界大戦における経済インテリジェンスへの経験的アプローチ」。アメリカ統計協会のジャーナル。42(237):72。

Höhle、Michael、Leonhard Held。人口のサイズのベイズ推定。No.499。ディスカッションペーパー// Sonderforschungsbereich 386 derLudwig-Maximilians-UniversitätMünchen、2006。


3

1968年に失われた潜水艦USSスコーピオン(ベイジアン)の捜索について、クレシーアンドウィックル統計(時空間データの Wiley)に関する素晴らしい話があります。この話を生徒に伝え、(簡略化)シミュレータを使用して検索します。

同様の例は、失われた飛行MH370のストーリーを中心に構築できます。Davey et al。、Bayesian Methods in the Search for MH370、Springer-Verlagを参照してください。


1

θ

y1,...,yny=(y1,...,yn)T

y1,...,yn|θN(θ,σ2)

あるいは、ベイジアンがより一般的に書いたように

y1,...,yn|θN(θ,τ)

τ=1/σ2τ

yi

f(yi|θ,τ)=(τ2π)×exp(τ(yiθ)2/2)

θ^=y¯

θ

θN(a,1/b)

この正規-正規(多くの代数の後の)データモデルから取得する事後分布は、別の正規分布です。

θ|yN(bb+nτa+nτb+nτy¯,1b+nτ)

b+nτay¯bb+nτa+nτb+nτy¯

θ|yθθ

とはいえ、これを説明するために、通常のデータテキストブックの例を使用できます。airqualityR内のデータセットを使用します。平均風速(MPH)を推定する問題を考えます。

> ## New York Air Quality Measurements
> 
> help("airquality")
> 
> ## Estimating average wind speeds
> 
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>

ここに画像の説明を入力してください

> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
> 
> 
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
> 
> a = 12
> b = 2
> 
> ## Your posterior would be N((1/))
> 
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
> 
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
> 

ここに画像の説明を入力してください

> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5%     97.5% 
9.958984 10.047404 

この分析では、研究者(あなた)は、データ+以前の情報が与えられた場合、50パーセンタイルを使用した平均風速の推定速度は10.00324であり、単にデータの平均を使用するよりも大きいと言えます。また、2.5と97.5の変位値を使用して95%の信頼できる区間を抽出できる完全な分布を取得します。

以下に2つのリファレンスを含めますが、カゼラの短い論文を読むことを強くお勧めします。具体的には、経験的なベイズ法を目的としていますが、ノーマルモデルの一般的なベイズ法について説明しています。

参照:

  1. カゼラ、G。(1985)。経験的ベイズデータ分析の概要。アメリカの統計学者、39(2)、83-87。

  2. ゲルマン、A(2004)。ベイジアンデータ分析(第2版、統計科学のテキスト)。フロリダ州ボカラトン:チャップマン&ホール/ CRC。


1

ベイジアン手法が絶対に必要だと私が考える研究分野は、最適設計の分野です。

xβx

xβββx

  • n=0β^

  • β^

  • β=1β^=5xβ=5x

  • これは、の不確実性を考慮していませんβ

xx

xβ

βx

x


1

私は最近この質問について考えていましたが、私は、ベイジアンが意味のある例を持っていると思います。これは、事前確率を使用して、臨床検査の尤度比です。

例はこれである可能性があります:毎日の練習条件下での尿ディップスライドの有効性(Family Practice 2003; 20:410-2)。アイデアは、尿ディップスライドの陽性結果が尿感染症の診断に何を意味するかを確認することです。肯定的な結果の尤度比は次のとおりです。

LR(+)=test+|H+test+|H=Sensibility1specificity
H+H

OR(+|test+)=LR(+)×OR(+)
OROR(+|test+)OR(+)

LR(+)=12.2LR()=0.29

p+=2/3p+|test+=0.96p+|test=0.37

ここでのテストは、感染を検出するのに適していますが、感染を破棄するのには適していません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.