私は、スケールがどうあるべきかについて大まかな考えを持っているが、わからないという言い方をしたいときに、スケール正規分布の事前分布として対数正規分布を使用しました(正規分布、t分布など)。それについて多く。その使用は直感的に理にかなっているので使用しますが、他の人が使用するのを見たことはありません。これに隠れた危険はありますか?
私は、スケールがどうあるべきかについて大まかな考えを持っているが、わからないという言い方をしたいときに、スケール正規分布の事前分布として対数正規分布を使用しました(正規分布、t分布など)。それについて多く。その使用は直感的に理にかなっているので使用しますが、他の人が使用するのを見たことはありません。これに隠れた危険はありますか?
回答:
少し有益な分布には「第2種のベータ分布」(略してベータ2)を使用し、強い事前の信念がある場合は共役逆ガンマ分布を使用することをお勧めします。私がこれを言う理由は、事前確率とデータが矛盾する場合、事前確率が事後分布に無限の影響を与えるという意味で、共役事前確率が堅牢ではないからです。そのような振る舞いは私が「独断的な」と呼ぶものであり、穏やかな事前情報によって正当化されるものではありません。
堅牢性を決定するプロパティは、事前および尤度のテール動作です。技術的な詳細を概説する非常に良い記事はこちらです。たとえば、観測値(つまり、任意に大きくなる)として位置パラメーターの分析から破棄されるように(t分布など)尤度を選択できます(ほとんど同じ方法で)そのような観察を直感的に行う)。「破棄」の割合は、分布の裾の重さに依存します。
階層モデリングコンテキストでのアプリケーションを示すスライドは、ここ(ベータ2分布の数学的形式を示しています)にあり、ここに論文があります。
階層モデリングコンテキストにない場合は、事後(または作成している結果)を比較することをお勧めしますが、与えられるスケールパラメーターにジェフリーズ事前分布を使用します。これは、両方のパラメーターがゼロに収束するため、ベータ2密度の制限として作成できます。近似には、小さな値を使用できます。しかし、可能な場合は解析的に解決しようと試みます(完全な解析ソリューションではない場合、可能な限り分析ソリューションを可能な限り進歩させます)。計算時間を節約できるだけでなく、また、モデルで何が起こっているかをよりよく理解する可能性があります。
さらに別の制約の形であなたの事前情報を指定することである(に平均等しい、分散が等しい IQRに等しい、の値を有する等、、自分で指定された)、次いで使用します最大エントロピー分布(エドウィンジェーンズまたはラリーブレットソーストによる研究で、最大エントロピーとは何か、またそうでないものについては、ジェフリーズの「不変量」。 V I Q R M 、V 、I Q R m (σ )= 1
MaxEntは「ロールスロイス」バージョンですが、ベータ2は「セダン」バージョンです。この理由は、MAXENT分布は、あなたがそれに入れている制約を受ける「以上を想定している」ということである(例えば、あなたが直前にジェフリーズの取得は制約手段ません)ベータのに対し、2分布はいくつかの「隠された」機能を含むことができます特定のケースでは望ましい場合とそうでない場合があります(たとえば、前の情報がデータよりも信頼性が高い場合、ベータ2は悪いです)。
MaxEnt分布のもう1つの優れた特性は、データ生成メカニズムで動作する不特定の制約がない場合、MaxEnt分布が圧倒的に見られる最も可能性の高い分布であるということです(数十億から数十億のオッズを話している)。したがって、表示される分布がMaxEnt分布ではない場合、実際のプロセスで動作するように指定していない追加の制約が存在する可能性があり、観測値はその制約が何であるかについての手がかりを提供できます。
ダニエルズによる次の論文は、分散に関するさまざまな収縮事前分布を比較しています。これらは適切な事前事項ですが、どれだけ多くの情報があるとすれば非情報的と言えるかはわかりません。しかし、彼はまた、情報価値のない事前分布のリストも提供しています(すべて適切ではありません)。以下が参考です。
MJダニエルズ(1999)、階層モデルの分散の事前確率、カナダJ.統計。、vol。27、いいえ。3、pp。567–578。
事前
関連するもう1つの最近の論文は次のとおりです。
A. Gelman(2006)、階層モデルの分散パラメーターの事前分布、ベイズ分析、vol。1、いいえ。3、pp。515–533。
(質問は古いですが、問題はそうではありません)
個人的には、あなたの直感はある程度理にかなっていると思います。つまり、数学的な整頓が必要ない場合は、ロケーションパラメーターに使用する分布に関係なく、スケールパラメーターのログにも同じ分布を使用する必要があります。だから、あなたが言っていることは、通常の事前確率と同等のものを使用することです。
あなたは実際に位置パラメータに通常の事前分布を使用しますか?ほとんどの人は、分散を大きくしない限り、ここでの他の回答で説明されている理由のために、おそらく「あまりにも独断的」だと言うでしょう(無限の影響)。経験的なベイズを行っている場合は例外です。つまり、データを使用して事前のパラメーターを推定します。
「弱く有益な情報」にしたい場合は、おそらくより裾の広い分布を選択するでしょう。明らかな候補はt分布です。Gelmanの最新のアドバイスは、3〜7のdfで使用することです。(このリンクは、場所に対して行うのと同じスケールのログに対しても同じことをしたいという私の提案をサポートしていることに注意してください)。スタンでこれを達成するために、あなたは次のようなことをするかもしれません:
real log_sigma_y; //declare at the top of your model block
//...some more code for your model
log_sigma_y <- log(sigma_y); increment_log_prob(-log_sigma_y);
log_sigma_y ~ student_t(3,1,3); //This is a 'weakly informative prior'.
ただし、上記のコードが複雑すぎる場合は、2つの注意事項を伴う対数正規分布を回避できると思います。最初に、その事前分布の分散を、「あなたが自信がない」という大まかな推測よりも数倍広くします。情報量の多い事前情報ではなく、情報量の少ない事前情報が必要です。次に、モデルを近似したら、パラメーターの後方中央値を確認し、その対数が対数正規分布の中心からあまり離れていないことを確認します。「それほど遠くない」とは、おそらく、標準偏差が2未満、できれば1 SDを超えないことを意味します。
階層モデルのスケールパラメーターについては、折り畳まれた非中心t分布を使用するというAndrew Gelmanの提案を使用することになりました。これは私にとってかなりうまく機能しています。