情報量の少ないまたは主観的な事前分布を通常使用する場合、ベイジアンフレームワークの解釈はどのように改善されますか?


18

それはデータ与えられたパラメータの確率を計算するので、それは多くの場合、(frequentist以上)ベイズフレームワークは解釈の大きな利点を持っていると主張している-の代わりに、のように、頻繁なフレームワーク。ここまでは順調ですね。p x | θ p(θ|x)p(x|θ)

しかし、それが基づいている全体の方程式:

p(θ|x)=p(x|θ).p(θ)p(x)

私には2つの理由で少し疑っています:

  1. 多くの論文では、通常、情報量の少ない事前分布(均一分布)が使用され、その後のみが使用されます。ベイジアン事後確率と頻度論者の可能性が同じ分布である場合の解釈?同じ結果が得られます。p(θ|x)=p(x|θ)

  2. 有益な事前分布を使用すると、異なる結果が得られますが、ベイジアンは主観的な事前分布の影響を受けるため、全体にも主観的な色合いがあります。p(θ|x)

言い換えれば、引数全体は、よりも解釈が優れているということは、が一種の「実」であるという仮定に基づいています。は、MCMCを実行するために何らかの方法で選択する出発点にすぎませんが、現実の説明ではありません(定義できないと思います)。p x | θ p θ p(θ|x)p(x|θ)p(θ)

では、ベイジアンの方が解釈が優れていると私たちはどのように議論できますか?


4
(1)結論が間違っているため、疑わしいと思われます。情報量の少ない事前分布を伴うベイジアンの結果は、頻度の高い結論と必ずしも同じではありません。実際、多くの場合、「情報価値のない事前」が何であるかについての合意はないようです!(2)また、頻繁な分析で行われたすべての仮定が主観的ではないと暗黙的に仮定しているため、議論の余地がありますが、そうではありません。最後に、「より良い解釈」とはどういう意味ですか?あなたの質問は、それを定義しないとあいまいです。
whuber

1
私が言いたいwhuberのコメントに加えて、ベイズがフリークエンティストよりも優れている一般的な理由はないので、議論があります。ベイズが意味のある結果をもたらすこともあれば、頻繁な方法がより良いこともあります。ただし、応用分野では、まったく異なる結果が得られる理由はないはずです。哲学的な観点から見ると、ベイズは間違いなく強力ですが、誰もが知っているように、理論と実践は時として大きく異なります。また、私はあなたの最初の段落について少し心配しています。私はあなたが献身的なベイジアン人であるように見えます(何も問題はありません)。
-suncoolsu

タイトルはそうではありませんuninformative or *objective* priorsか?subjective事前確率は正確にある有益な事前確率。
javadba

回答:


15

すでに投稿されている優れたものよりも狭い応答を提供し、解釈の利点に焦点を当てる-たとえば、「95%信頼できる間隔」のベイジアン解釈は、真のパラメーター値が間隔は95%です。aの2つの一般的な頻度論的解釈の1つ、たとえば「95%信頼区間」は、数値的には2つが同一であっても、長い目で見れば、何度も手順を実行する場合、間隔は実際の値をカバーし、95%に収束します。前者は直感的ですが、後者はそうではありません。「当社のソーラーパネルが25年間で20%未満しか劣化しない確率は95%です」とは言えないが、代わりに「

頻度の高い別の解釈は、「データが生成される前に、決めた手順を使用して計算する間隔が真のパラメーター値を完全に下回る確率は5%でした。しかし、データを収集したので、私たちは主観主義者ではなく、確率は真のパラメーター値よりも完全に下にあるかどうかに応じて0または1であるため、そのような声明を出すことはできません。これは、監査人および保証引当金の計算に役立ちます。(私は実際、この定義は合理的であると思いますが、通常は有用ではありません;また、直感的に理解することは容易ではなく、特に統計学者でない場合はそうではありません。)

どちらの頻繁な解釈も直感的ではありません。ベイジアンバージョンは。したがって、ベイジアンのアプローチによって保持される「解釈における大きな利点」。


反頻度論者の議論に関する私の問題は、回答として手順を説明しようとすることをやりすぎていることです。解釈では自分で同じ実験を試してください。ただし、結果からどのような結論を導き出すかについて。頻度の高い人とベイジアンの結果を聞いて、あなたはどのように行動しますか?実際には、両方を理解するとき、あなたはまだ同じように振る舞います。「データによって与えられる信頼度に基づいて行動することが最善である」ことを説明するために、手順のレベルに行く必要はありません。
PascalVKooten

また、定義上、ベイジアンの場合、「データが示すこと」だけでなく、事前情報に含まれる情報もあるため、さらに説明する必要があります。ベイジアンは頻繁に長い説明をする傾向がありますが、彼らは自分が選んだ前のもの、なぜ前のものを選んだのか、特に前のものを選んだ理由を説明しません。
-PascalVKooten

さて、私はあなたの最後の点に部分的に同意しません。例として、以前の仕事で非常に高価な機器の信頼性分析を行っていたとき、以前の信頼性分析の結果を新しいものの前のものとして扱い、「同等のサンプルサイズ」の観点からダウンウェイトしました。現実世界の非定常性やデザインのわずかな変化などを考慮に入れてください。そして、実際、ベイジアン統計は、事前データを更新することに関するものです。古典的な統計は「更新」されないので、いくつかの例外を除き、事前分布が平坦な場合にのみ同じ結果が得られます。
jbowman

データセットをマージして、別の分析を実行するだけです...事前に考える必要はありません。実際の事前データよりも優れた事前データはありません。「実際の」データベースの事後データを取得します。
-PascalVKooten

私たちの場合、継続的な軽微な設計変更と製造に関する知識があるため、新しい事前の事後の事後を正確に望んでいないかもしれません。プロセスも進化していたため、将来のデータについては以前の100%の情報が得られません。実行時の考慮事項もあります。しかし、あなたのポイントは一般的に良いものです、それは私には思えます。
-jbowman

13

p x | θ p x | θ p(θ|x)p(x|θ)p(x|θ)p(θ|x) (たとえば、p値の誤り、または信頼区間を信頼区間と解釈する)。

有益な事前確率は必ずしも主観的ではないことに注意してください。たとえば、ある物理システムの事前知識は測定単位に依存しないと主張することは主観的知識とは見なされません(本質的に任意であるため)、変換グループのアイデアにつながりますおよび「最小限の情報」の優先順位。

主観的な知識を無視することの裏側は、エキスパートの知識を無視しているため、システムが最適ではない可能性があることです。そのため、主観は必ずしも悪いことではありません。たとえば、動機付けの例としてよく使用される通常の「コインのバイアスを推測する」問題では、データが入る前に均一な事前学習で比較的ゆっくりと学習します。いいえ、わずかに偏ったコイン、または完全に偏ったコイン(2頭または2タル)を作成するのは簡単です。そのため、主観的な事前分析を使用して、この推測を分析に組み込んだ場合、必要なデータを特定するために必要なデータは少なくなりますバイアスは実際です。

頻繁な分析には、主観的な要素も含まれる場合があります(たとえば、p値が0.05未満の場合、帰無仮説を棄却する決定、論理的な強制はなく、有用であることが証明されている単なる伝統です)。ベイジアンアプローチの利点は、主観性を暗黙的に残すのではなく、計算で明示的にすることです。

結局のところ、それは「コースの馬」の問題です。ツールボックスに両方のツールセットを用意し、手元のタスクに最適なツールを使用する準備を整えてください。


6

Bayesianフレームワークは、正しい分布の仮定を理解するという点で「水晶玉」を持つことに依存していないため、フリークエンティストよりも大きな利点があります。ベイジアン法は、所有している情報を使用し、その情報を確率分布にエンコードする方法を知っていることに依存しています。

ベイジアン法を使用することは、基本的には確率理論を最大限に活用することです。ベイズの定理は、確率理論の古典的な積則の言い換えにすぎません。

p(θx|I)=p(θ|I)p(x|θI)=p(x|I)p(θ|xI)

p(x|I)0I

今、ベイズの定理が疑わしいと思うなら、論理的には、製品ルールも疑わしいと考えなければなりません。ここで、Coxの定理と同様に積と和のルールを導出する演ductive的な引数を見つけることができます。ここで必要な仮定のより明白なリストを見つけることができます

私の知る限り、頻繁な推論は論理フレームワーク内の一連の基礎に基づいていません。コルモゴロフ確率の公理を使用しているため、確率理論と統計的推論の間に関連性はないようです。従うべき手順を導く頻度論的推論の公理はありません。原則と方法(最大尤度、信頼区間、p値など)があり、それらはうまく機能しますが、それらは特定の問題に対して隔離され、特化される傾向があります。私は、少なくとも厳密な論理的枠組みの観点から、頻度論的手法はその基礎を曖昧なままにしておくのが最善だと思います。

1θ

2

均一な事前分布を使用することは、事前分布と比較して尤度が鋭い場合に行うのに便利な近似であることがよくあります。事前に確認して適切に設定することは、努力する価値がない場合があります。同様に、ベイジアン統計とMCMCを混同しないでください。MCMCは、ガウス二乗法と同じ、積分のアルゴリズムであり、ラプラス近似と同様のクラスです。アルゴリズムの出力を再利用してすべての積分(事後平均と分散は積分)を行うことができるため、quadratreよりも少し便利です。大きなサンプルを必要としないため、Laplaceより少し一般的後方の丸いピーク(ラプラスの方が速い)。


3

μ=0)すべてが等しいという知識をコード化する回帰係数の上に置かれ、係数の大きさがより低い解を好みます。これは、目的関数を最大化するが、問題の特定のコンテキストでは意味をなさないソリューションを見つけることにより、データセットの過剰適合を回避するためです。ある意味では、統計モデルに特定のドメインに関する「手がかり」を与える方法を提供します。

ただし、これは(私の意見では)ベイジアンの方法論の最も重要な側面ではありません。ベイジアン手法は、データがどのように存在したかについての完全な「ストーリー」を提供するという点で生成的です。したがって、彼らは単なるパターンファインダではなく、現在の状況の完全な現実を考慮に入れることができます。たとえば、LDA(潜在ディリクレ割り当て)を考えてみましょう。LDAは、テキストドキュメントがどのようになるかについての完全な生成ストーリーを提供し、次のようになります。

  1. 特定のトピックが共起する可能性に基づいて、トピックの組み合わせを選択します。そして
  2. 選択したトピックに基づいて条件付けられた語彙から単語のセットを選択します。

したがって、モデルは、ドメイン内のオブジェクト(ここではテキストドキュメント)とそれらの作成方法の非常に具体的な理解に基づいて適合します。したがって、返される情報は、問題のドメインに直接調整されます(トピックが与えられた単語の可能性、トピックが一緒に言及される可能性、トピックを含むドキュメントの可能性、および程度など)。ベイズの定理がこれを行うために必要であるという事実は、ほとんど二次的なものであるため、「ベイズはベイジアンではなく、キリストはクリスチャンではない」という冗談です。

要するに、ベイジアンモデルは、確率分布を使用してドメインオブジェクトを厳密にモデリングすることです。したがって、他の方法では得られないであろう知識を単純な識別手法でエンコードすることができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.