タグ付けされた質問 「bayesian」

ベイズ推定は、モデルパラメータを確率変数として扱い、ベイズの定理を適用して、観測されたデータセットを条件とするパラメータまたは仮説に関する主観的な確率ステートメントを推定することに依存する統計的推定の方法です。

3
ベイズの定理の分母を分解するのはなぜですか?
(私は統計の初心者です。私は数学者でプログラマーであり、単純なベイジアンスパムフィルタのようなものを構築しようとしています。) 多くの場所で、人々はベイズの定理の方程式の分母を分解する傾向があることに気付きました。したがって、これの代わりに: P(A | B )⋅ P(B )P(A )P(A|B)⋅P(B)P(A)\frac{P(A|B)\cdot P(B)}{P(A)} これが提示されます: P(A | B )⋅ P(B )P(A | B )⋅ P(B )+ P(A | ¬ B )⋅ P(¬ B )P(A|B)⋅P(B)P(A|B)⋅P(B)+P(A|¬B)⋅P(¬B)\frac{P(A|B)\cdot P(B)}{P(A|B)\cdot P(B)+P(A|\neg B)\cdot P(\neg B)} このウィキペディアの記事と、Tim Petersによるこの洞察に満ちた投稿で、この規則が使用されていることがわかります。 私はこれに困惑しています。分母がなぜこのように分解されるのですか?それは物事をどのように助けますか?スパムフィルターの場合、計算するのにそれほど複雑なのは何ですか?P(A )P(A)P(A)The probability that the word "cheese" appears in an email, regardless of …
23 bayesian 


4
なぜベイジアン手法は複数のテスト修正を必要としないのですか?
アンドリュー・ゲルマンは、ベイジアンAB検定が複数の仮説修正を必要としない理由に関する広範な記事を書いた:2012年、複数の比較を心配する必要がない理由(通常)。 よくわかりません。なぜベイジアンメソッドは複数のテスト修正を必要としないのですか? A ~ Distribution1 + Common Distribution B ~ Distribution2 + Common Distribution C ~ Distribution3 + Common Distribution Common Distribution ~ Normal 私の理解では、上記のベイジアンのアプローチは、すべての仮説による共有された基礎となる分布を説明するものです(頻繁なボンフェローニ補正とは異なります)。私の推論は正しいですか?

2
ラプラスがスパースソリューションを事前に作成するのはなぜですか?
正則化に関する文献を調べていましたが、L2のレギュレーションとガウス事前分布、およびL1とゼロを中心としたラプラスとをリンクする段落がよく見られました。 これらの事前分布がどのように見えるかは知っていますが、たとえば線形モデルの重みに変換する方法はわかりません。L1では、正しく理解できれば、スパースソリューション、つまり、いくつかの重みが正確にゼロにプッシュされることを期待しています。また、L2では小さな重みが得られますが、重みはゼロではありません。 しかし、なぜそれが起こるのでしょうか? さらに情報を提供したり、思考の道筋を明確にする必要がある場合はコメントしてください。

3
密度推定にベイズのアプローチはありますか
連続確率変数密度を推定することに興味があります。これを行う1つの方法は、カーネル密度推定を使用することです。XXX しかし今、私は次の線に沿ったベイジアンアプローチに興味があります。は最初に分布従うと信じています。を読み取ります。新しい測定値に基づいてを更新する方法はありますか?XXXFFFnnnXXXFFF 私は自分が矛盾しているように聞こえますが、もしのみを以前の分布として信じているなら、それ以外のデータを私に納得させるべきではありません。ただし、があり、私のデータポイントがます。見ると、明らかに以前のものに固執することはできませんが、どうすれば更新できますか?FFFFFFUnif[0,1]Unif[0,1]Unif[0,1](0.3,0.5,0.9,1.7)(0.3,0.5,0.9,1.7)(0.3, 0.5, 0.9, 1.7)1.71.71.7 更新:コメントの提案に基づいて、Dirichletプロセスの検討を開始しました。次の表記法を使用します。 G∼DP(α,H)θi|G∼Gxi|θi∼N(θi,σ2)G∼DP(α,H)θi|G∼Gxi|θi∼N(θi,σ2) G \sim DP(\alpha,H)\\ \theta_i | G \sim G\\ x_i | \theta_i \sim N(\theta_i,\sigma^2) この言語で私の元の問題を組み立てた後、私は次のことに興味があると思います:。これをどのように行うのですか?θn+1|x1,...,xnθn+1|x1,...,xn\theta_{n+1} | x_1,...,x_n でノートのセット(2ページ)、著者は一例た( Urn Scheme)。これが関連するかどうかはわかりません。θn+1|θ1,...,θnθn+1|θ1,...,θn\theta_{n+1} | \theta_1,...,\theta_n 更新2:私も尋ねたい(メモを見た後):DPのをどのように選択しますか?ランダムな選択のようです。さらに、DPの以前のをどのように選択しますか?事前として事前確率を使用する必要がありますか?H θ Hαα\alphaHHHθθ\thetaHHH


2
モデル選択のための最良のアプローチベイジアンまたは交差検証?
さまざまなモデルまたは含める機能の数を選択しようとすると、2つのアプローチが考えられます。 データをトレーニングセットとテストセットに分割します。さらに良いことには、ブートストラップまたはk-fold交差検証を使用します。トレーニングセットで毎回トレーニングを行い、テストセットの誤差を計算します。テストエラーとパラメーターの数をプロットします。通常、次のようになります。 パラメーターの値を積分することにより、モデルの尤度を計算します。すなわち、を計算し、これをパラメーターの数に対してプロットします。次に、次のようなものを取得します。∫θP(D | θ )P(θ)dθ∫θP(D|θ)P(θ)dθ\int_\theta P(D|\theta)P(\theta)d \theta だから私の質問は: これらのアプローチは、この問題を解決するのに適していますか(モデルに含めるパラメーターの数を決定するか、いくつかのモデルから選択する)。 それらは同等ですか?おそらくない。特定の仮定の下で、または実際に同じ最適モデルを提供しますか? ベイジアンモデルなどで事前知識を指定するという通常の哲学的な違い以外に、各アプローチの長所と短所は何ですか?どちらを選びましたか? 更新: AICとBICの比較 に関する関連する質問も見つけました。私の方法1はAICと漸近的に等価であり、方法2はBICと漸近的に関連しているようです。しかし、BICはLeave-One-Out CVと同等であることも読んでいます。これは、LOO CVがKフォールドCVに等しい場合、トレーニングエラーの最小値とベイジアン尤度の最大値が等しいことを意味します。おそらく非常に興味深い論文「Jun Shaoによる「線形モデル選択のための漸近理論」」はこれらの問題に関連しています。


3
不適切な事前はどのようにして適切な事後分布に導くことができますか?
適切な事前配布の場合、 P(θ∣X)=P(X∣θ)P(θ)P(X)P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta \mid X) = \dfrac{P(X \mid \theta)P(\theta)}{P(X)} ∝P(X∣θ)P(θ)∝P(X∣θ)P(θ) \propto P(X \mid \theta)P(\theta)。 このステップのための通常の正当化は、周辺分布することである、、に対して一定であると事後分布を導出する際に、したがって無視することができます。XXXP(X)P(X)P(X)θθ\theta しかし、不適切な事前分布の場合、事後分布が実際に存在することをどのように知っていますか?この一見円形の議論には何かが欠けているようです。つまり、事後が存在すると仮定した場合、事後を導出する方法のメカニズムは理解しますが、事後が存在する理由についての理論的正当性が欠落しているようです。 PS私はまた、不適切な事前が不適切な事後につながる場合があることを認識しています。

5
ベイズの定理直観
私は、事前、事後、尤度、および限界確率の観点から、ベイズの定理の直観に基づいた理解を発展させようとしました。そのために、次の式を使用します ここで、は仮説または信念を表し、はデータまたは証拠を表します。 私は事後の概念を理解しました-それは、以前の信念と出来事の可能性を結合する統一体です。私が理解していないのは、可能性が何を意味するのか?そして、なぜ限界は ABP(B|A)=P(A|B)P(B)P(A)P(B|A)=P(A|B)P(B)P(A)P(B|A) = \frac{P(A|B)P(B)}{P(A)}AAABBB分母の確率? いくつかのリソースを確認した後、この引用に出会いました。 尤度は、イベントの重量の発生により与えられる ...ある事後イベントの確率イベントのことを考えると、発生しています。A P (B | A )BBBAAAP(B|A)P(B|A)P(B|A)ABBBAAA 上記の2つのステートメントは、私と同じように見えますが、異なる方法で書かれています。誰も2つの違いを説明できますか?

3
尤度の定義に頻度主義者とベイジアンの間に違いはありますか?
尤度関数は条件付き確率ではないと言う人もいれば、そうだと言う人もいます。これは非常に混乱しています。 私が見たほとんどの情報源によると、パラメータ分布の尤度は、x iの n個のサンプルが与えられた確率質量関数の積でなければなりません。θθ\thetannnxixix_i L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi;θ)L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi;θ)L(\theta) = L(x_1,x_2,...,x_n;\theta) = \prod_{i=1}^n p(x_i;\theta) たとえば、ロジスティック回帰では、最適化アルゴリズムを使用して尤度関数(最大尤度推定)を最大化し、最適なパラメーター、したがって最終的なLRモデルを取得します。互いに独立していると仮定するトレーニングサンプルが与えられた場合、確率の積(または結合確率質量関数)を最大化します。これは私には明らかです。nnn よるとの関係:可能性、条件付き確率と故障率、「可能性は確率ではありません、それは条件付き確率ではありません」。また、「尤度はベイジアンの尤度の理解においてのみ条件付き確率です。つまり、が確率変数であると仮定した場合」。θθ\theta 頻度の高い人とベイジアンの間で学習問題を扱う際のさまざまな視点について読みました。 ソースによると、ベイジアン推論の場合、アプリオリ、尤度P (X | θ )があり、ベイジアン定理を使用して事後P (θ | X )を取得します。P(θ)P(θ)P(\theta)P(X|θ)P(X|θ)P(X|\theta)P(θ|X)P(θ|X)P(\theta|X) P(θ|X)=P(X|θ)×P(θ)P(X)P(θ|X)=P(X|θ)×P(θ)P(X)P(\theta|X)=\dfrac{P(X|\theta) \times P(\theta)}{P(X)} 私はベイジアン推論に精通していません。どうしてP(X|θ)P(X|θ)P(X|\theta)そのパラメータを条件と観測データの分布である、また、可能性と呼ばれますか?ではウィキペディア、それが時にはそれが書かれていると言い。これは何を意味するのでしょうか?L(θ|X)=p(X|θ)L(θ|X)=p(X|θ)L(\theta|X)=p(X|\theta) 頻度についての頻度とベイジアンの定義に違いはありますか? ありがとう。 編集: ベイズの定理の解釈には、ベイズの解釈と頻度論者の解釈のさまざまな方法があります(ベイズの定理-ウィキペディアを参照)。

1
ブートストラップとベイジアンブートストラップの概念は?
ベイジアンブートストラッププロセスとは何か、それが通常のブートストラップとどのように異なるかを理解するのに苦労しています。誰かが両方の直感的/概念的なレビューと比較を提供できれば、それは素晴らしいことです。 例を見てみましょう。 [1,2,5,7,3]であるデータセットXがあるとします。 置換で複数回サンプリングして、Xのサイズに等しいサンプルサイズ([7,7,2,5,7]、[3,5,2,2,7]など)を作成し、その後、それぞれの平均を計算し、サンプルのブートストラップ分布は平均ですか? そのベイジアンブートストラップ分布は何でしょうか? そして、他のパラメーター(分散など)のベイジアンブートストラップ分布は同じ方法でどのように行われますか?

1
ROC曲線の分析のためにベイジアン法を発明したのですか?
前文 これは長い投稿です。これを読み直している場合は、質問の部分を修正したことに注意してください。ただし、背景資料は同じままです。さらに、私は問題の解決策を考案したと信じています。そのソリューションは、投稿の下部に表示されます。私の元のソリューション(この投稿から編集済み。そのソリューションの編集履歴を参照)が必然的に偏った推定値を生成したことを指摘してくれたCliffABに感謝します。 問題 機械学習の分類問題において、モデルのパフォーマンスを評価する1つの方法は、ROC曲線、またはROC曲線下面積(AUC)を比較することです。ただし、ROC曲線またはAUCの推定値の変動性についてはほとんど議論されていません。つまり、それらはデータから推定された統計であるため、いくつかのエラーが関連付けられています。これらの推定値の誤差を特徴付けることは、たとえば、ある分類器が実際に別の分類器より優れているかどうかを特徴付けるのに役立ちます。 この問題に対処するために、ROC曲線のベイズ分析と呼ばれる次のアプローチを開発しました。問題についての私の考えには、2つの重要な所見があります。 ROC曲線は、データから推定された量で構成されており、ベイズ分析に適しています。 ROC曲線は、真の陽性率を偽陽性率F P R (θ )に対してプロットすることで構成されます。それぞれ、データから推定されます。θのT P RおよびF P R関数、クラスAをBからソートするために使用される決定しきい値(ランダムフォレストでのツリー投票、SVMでの超平面からの距離、ロジスティック回帰での予測確率など)を検討します。判定閾値の値が変化θは、別の見積もりを返しますT P RをTPR (θ )TPR(θ)TPR(\theta)FPR(θ)FPR(θ)FPR(\theta)TPRTPRTPRFPRFPRFPRθθ\thetaθθ\thetaTPRTPRTPRおよび。さらに、T P R (θ )は一連のベルヌーイ試行における成功確率の推定値であると考えることができます。実際、TPRはT Pとして定義されていますFPRFPRFPRTPR(θ)TPR(θ)TPR(\theta)また、用いた実験において二項成功確率のMLEであるTPの成功とTP+FN>0合計試験。TPTP+FN,TPTP+FN,\frac{TP}{TP+FN},TPTPTPTP+FN>0TP+FN>0TP+FN>0 とF P R (θ )の出力をランダム変数と考えると、成功と失敗の数が正確にわかっている二項実験の成功確率を推定する問題に直面します(T P、F P、F N、およびT Nによって与えられ、これらはすべて固定されていると仮定します)。従来、単純にMLEを使用し、TPRとFPRがθの特定の値に対して固定されていると仮定しています。TPR(θ)TPR(θ)TPR(\theta)FPR(θ)FPR(θ)FPR(\theta)TPTPTPFPFPFPFNFNFNTNTNTNθθ\theta。しかし、ROC曲線のベイジアン分析では、ROC曲線の事後分布からサンプルを描画することで得られるROC曲線の事後シミュレーションを描画します。この問題の標準的なベイジアンモデルは、成功確率に優先するベータを持つ二項尤度です。成功確率の事後分布もベータなので、各、TPRおよびFPR値の事後分布があります。これにより、2番目の観察結果が得られます。θθ\theta ROC曲線は減少していません。そうつのいくつかの値をサンプリングいったん及びF P R (θに)、サンプリングポイントのROC空間「南東」の点をサンプリングするゼロ可能性があります。しかし、形状に制約のあるサンプリングは難しい問題です。TPR(θ)TPR(θ)TPR(\theta)FPR(θ)FPR(θ)FPR(\theta) ベイジアンアプローチを使用して、単一の推定セットから多数のAUCをシミュレートできます。たとえば、20個のシミュレーションは、元のデータと比較すると次のようになります。 この方法には多くの利点があります。たとえば、1つのモデルのAUCが別のモデルよりも大きい確率は、事後シミュレーションのAUCを比較することで直接推定できます。分散の推定値は、リサンプリング方法よりも安価なシミュレーションを介して取得できます。これらの推定値は、リサンプリング方法から生じる相関サンプルの問題を引き起こしません。 溶液 上記の2つに加えて、問題の性質について3番目と4番目の観察を行うことにより、この問題の解決策を開発しました。 および F P R (θ )には、シミュレーションに適した周辺密度があります。TPR(θ)TPR(θ)TPR(\theta)FPR(θ)FPR(θ)FPR(\theta) 場合(副F P R …


6
事後と事前および尤度とは非常に異なる
事前確率と尤度が互いに非常に異なる場合、事後がどちらにも似ていない状況が発生することがあります。たとえば、正規分布を使用するこの図を参照してください。 これは数学的には正しいですが、私の直感とは一致していないようです-データが強く保持されている信念またはデータと一致しない場合、どちらの範囲もうまくいかないと予想し、フラットな後方範囲全体または恐らく事前確率と尤度周辺の二峰性分布(どちらがより論理的な意味を持っているかはわかりません)。私は確かに、私の以前の信念やデータのいずれにも一致しない範囲の周りのきつい後方を期待しないでしょう。より多くのデータが収集されると、事後確率が尤度に向かって移動することを理解していますが、この状況では直感に反するように思われます。 私の質問は次のとおりです。この状況に対する私の理解はどのように欠陥がありますか(または欠陥がありますか)。後部は、この状況の「正しい」関数です。そうでない場合、他にどのようにモデル化できますか? 完全を期すために、事前確率はとして与えられ、尤度はとして与えられます。N(μ = 6.1 、σ = 0.4 )N(μ = 1.5 、σ= 0.4 )N(μ=1.5、σ=0.4)\mathcal{N}(\mu=1.5, \sigma=0.4)N(μ = 6.1 、σ= 0.4 )N(μ=6.1、σ=0.4)\mathcal{N}(\mu=6.1, \sigma=0.4) 編集:与えられた答えのいくつかを見て、私は非常によく状況を説明していないように感じています。私のポイントは、ベイジアン解析は非直感的な結果をもたらすように思われた特定のモデルで仮定。私の望みは、おそらく悪いモデルの決定について、事後部が何らかの形で「説明」することでした。これについては、回答で詳しく説明します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.