ベイズ回帰:標準回帰と比較してどのように行われますか?


57

ベイジアン回帰についていくつか質問がありました。

  1. として標準回帰をます。これをベイジアン回帰に変更したい場合、と両方の事前分布が必要ですか(またはこの方法では機能しませんか)?y=β0+β1x+εβ0β1

  2. 標準回帰では、残差を最小化しておよび単一の値を取得しようとします。これはベイズ回帰でどのように行われますか?β0β1


私はここで本当に苦労しています:

posterior=prior×likelihood

尤度は現在のデータセットから得られます(したがって、それは私の回帰パラメーターですが、単一の値としてではなく、尤度分布としてですよね?)。事前は、以前の研究から得られます(言いましょう)。だから私はこの方程式を得ました:

y=β1x+ε

私の可能性または後部であること(または、これは単に完全に間違っていますか)? β1

標準回帰がベイズ回帰に​​どのように変換されるのか、単純に理解できません。

回答:


93

単純な線形回帰モデル

yi=α+βxi+ε

その背後にある確率モデルの観点から記述できます

μi=α+βxiyiN(μi,σ)

すなわち、従属変数は、平均でパラメーター化された正規分布に従います。これは、でパラメーター化された線形関数であり、標準偏差パラメーター化されます。通常の最小二乗を使用してこのようなモデルを推定する場合、確率的な定式化について気にする必要はありません。近似値の二乗誤差を予測値に最小化することによりパラメーターの最適値を検索するためです。一方、最尤推定を使用してこのようなモデルを推定することもできます。この場合、尤度関数を最大化することにより、パラメーターの最適な値を探します。YμiXα,βσα,β

argmaxα,β,σi=1nN(yi;α+βxi,σ)

ここで、は点で評価される正規分布の密度関数で、平均および標準偏差でパラメータ化されています。Nyiα+βxiσ

尤度関数のみを最大化する代わりに、ベイズのアプローチでは、パラメータの事前分布を仮定し、ベイズの定理を使用します

posteriorlikelihood×prior

尤度関数は上記と同じですが、変更されるのは、推定パラメーター事前分布を仮定し、それらを方程式に含めることです。α,β,σ

f(α,β,σY,X)posteriori=1nN(yiα+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors

「どのディストリビューション?」選択肢は無制限にあるため、これは別の質問です。パラメータは、あなたは、例えばいくつかによってパラメータ正規分布と仮定可能性がありハイパー、または -distributionあなたは多くの仮定をする必要はありませんが、あなたが想定したい場合は重い尾を前提とする場合、または均一な分布をパラメータはアプリオリ「与えられた範囲内の何でも」などです。場合、標準偏差は正である必要があるため、ゼロより大きくなる事前分布を仮定する必要があります。これにより、John K. Kruschkeが以下に示すように、モデルが定式化される可能性があります。α,βtσ

ベイズ線形回帰モデルの定式化

(ソース:http : //www.indiana.edu/~kruschke/BMLR/

最尤法では、各パラメーターの単一の最適値を探していましたが、ベイズのアプローチでは、ベイズの定理を適用して、パラメーターの事後分布を取得します。最終的な見積もりは、データと事前分布から得られる情報に依存しますが、データに含まれる情報が多いほど、事前分布の影響は少なくなります

一様な事前分布を使用する場合、正規化定数を削除した後、形式をとることに注意してください。これにより、ベイズの定理は尤度関数のみに比例するため、事後分布は最尤推定値とまったく同じポイントで最大値に達します。以下は、二乗誤差を最小化すると通常の尤度を最大化することに対応するため、均一な事前分布の下での推定は通常の最小二乗を使用した場合と同じになります。f(θ)1

場合によっては、ベイズのアプローチでモデルを推定するために、共役事前分布を使用できます。そのため、事後分布を直接利用できます(こちらの例を参照)。ただし、ほとんどの場合、事後分布は直接利用できず、モデルを推定するためにマルコフ連鎖モンテカルロ法を使用する必要があります(線形回帰のパラメーターを推定するためにメトロポリス・ヘイスティングスアルゴリズムを使用するこの例を確認してください)。あなたはパラメータの点推定値のみに関心がある場合は最後に、あなたが使用できる最大事後確率を、すなわち

argmaxα,β,σf(α,β,σY,X)

ロジスティック回帰の詳細については、ベイジアンロジットモデルを確認できます-直感的な説明?糸。

詳細については、次の書籍を確認してください。

クルシュケ、J。(2014)。ベイジアンデータ分析の実行:R、JAGS、およびStanのチュートリアル。アカデミックプレス。

ゲルマン、A。、カーリン、JB、スターン、HS、およびルービン、DB(2004)。 ベイジアンデータ分析。チャップマン&ホール/ CRC。


2
+1は質問が記載されている方法を考えると、私は多分もう少しこの哲学的な違いを強調したい:通常の最小二乗法や最尤推定では、我々は質問で始めている「のための最高の値をどのようなものがあり後でおそらく(つかいます)?" βi一方、完全なベイジアンアプローチでは、「未知の値について何が言えますか?」βiそして、ポイント推定が必要な場合は、事後平均または事後平均の最大値を使用することに進みます。
JIK

2
+1。ベイジアンとOLSのアプローチの関係を明確にするために指摘するのに役立つもう1つのことは、OLSがフラットな事前分布の下での事後平均として理解できることです(少なくとも私の知る限り)。あなたがあなたの答えでそれについて少し詳しく説明できたら素晴らしいでしょう。
アメーバは、モニカを

@amoebaそれは良い点です、私はそれについて考えます。しかし一方で、答えをあからさまに長くしたくないので、詳細に行くことには意味があります。
ティム

1
@amoeba参考までに、私はそれについて簡単なコメントを追加しました。
ティム

22

データセットが与えられ、場合、ベイジアン線形回帰は、次の方法:D=(x1,y1),,(xN,yN)xRd,yR

事前:

wN(0,σw2Id)

wはベクトルであるため、前の分布は多変量ガウスです。そしてある単位行列。(w1,,wd)TIdd×d

尤度:

YiN(wTxi,σ2)

私たちは、その前提とYiYj|w,ij

ここでは、分散の代わりに精度およびます。またが既知でと仮定します。a=1/σ2b=1/σw2a,b

事前は、として記述できます

p(w)exp{b2wtw}

そして、尤度

p(D|w)exp{a2(yAw)T(yAw)}

ここで、あり、は行列で、i番目の行はです。y=(y1,,yN)TAn×dxiT

事後は

p(w|D)p(D|w)p(w)

多くの計算の後、私たちはそれを発見します

p(w|D)N(w|μ,Λ1)

ここで(は精度行列です)Λ

Λ=aATA+bId
μ=aΛ1ATy

が正規線形回帰のに等しいことに注意してください。これは、ガウスでは平均がモードに等しいためです。μwMAP

また、代数を作成し、次の等式()を取得できます。μΛ=aATA+bId

μ=(ATA+baId)1ATy

そしてと比較してください:wMLE

wMLE=(ATA)1ATy

の余分な式は、事前に対応しています。これは、の特別な場合のリッジ回帰の式に似ています。この手法では不適切な事前分布を選択できるため(ベイジアンの観点から)、リッジ回帰はより一般的です。μλ=ba

予測事後分布の場合:

p(y|x,D)=p(y|x,D,w)p(w|x,D)dw=p(y|x,w)p(w|D)dw

それを計算することは可能です

y|x,DN(μTx,1a+xTΛ1x)

参照:Lunn et al。バグブック

JAGS / StanなどのMCMCツールを使用するには、KruschkeのDoing Bayesian Data Analysisを確認してください。


jpnetoありがとう。これは素晴らしい答えだと思いますが、数学の知識が不足しているため、まだ理解できません。しかし、私は間違いなくいくつかの数学のスキルを獲得した後、それを再度読み込みます
TinglTanglBob

1
これは非常に便利ですが、精度が既知であるという仮定は少し一般的ではありません。分散の逆ガンマ分布、つまり精度のガンマ分布を仮定する方がはるかに一般的ではないでしょうか?
DeltaIV 16

+1。「テクニックは不適切な事前確率を選択できるため、リッジ回帰はより一般的です」についてもう少しコメントできますか?わかりません。私は、RR = Gaussian(proper)beforeと考えました。w
アメーバは、モニカーを復活させる

@amoeba:ガウス事前分布はが、はゼロになる可能性があり、不適切な事前、つまりMLEになります。λwN(0,λ1Id)λ
jpneto 16

1
@DeltaIV:確かに、パラメーターに不確実性がある場合、事前にそれをモデル化できます。既知の精度の前提は、分析ソリューションを見つけやすくすることです。通常、これらの分析ソリューションは不可能であり、MCMCや何らかの変分法のような近似を使用する必要があります。
jpneto 16
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.