ベイジアンフレームワークではどのようにデータが生成され、データを生成するパラメーターの性質は何ですか?


9

私はベイジアン統計を再学習しようとしていました(私が最終的にそれを得たと思うたびに、以前に考慮しなかった何かがポップアウトします...)。しかし、データ生成プロセスが(私にとって)明確ではありませんでした。ベイジアンフレームワークでは実際にそうです。

頻出主義の枠組みは私には明らかです。いくつかの「真の」パラメータあり、そのパラメータは、パラメータ化する分布に従ってデータを生成します。θ

ただし、ベイジアン設定では、パラメーターを確率変数としてモデル化します。その部分は私を混乱させません。ベイジアンはこの確率をそれ自体の信念の不確実性として解釈するので、それは理にかなっています。彼らは確率を繰り返し不可能なイベントに割り当てても大丈夫です。だから私が「ベイズ主義」を解釈した方法は、データを生成するいくつかのパラメータがあると信じているということでした、それは決定的には不明ですが、それでも「自然」によって決定されたら修正されましたすることが)。それにもかかわらず、それは修正され、それゆえ、それは「再現不可能な出来事」でした。再現性はありませんでしたが、信念を更新することのみを試みていますθ与えられたデータ。したがって、データは、確率分布によって考慮されている(以前の)パラメーターのいずれかによって生成された可能性がありますが、それでもパラメーターは固定されており、不明です。確率値を付けているだけです。

この見解では、データ生成プロセスが常連客のプロセスとほぼ同じであると想定することは私にとって理にかなっています。「自然」は、「真の」「前の」分布を使用してパラメーターを選択し、確率変数がその「真の」(しかし固定された)実現を実現すると、観測したデータの生成を開始します。θPθ

これは、ベイジアンフレームワークでのデータ生成プロセスを解釈する標準的な方法ですか?

私の見解の主なものは、パラメーターが決定的に固定され(rvの実現として見られる)、に従ってデータを生成することです。したがって、私の見解のもう1つの非常に重要な点は、私にとって、以前のものは、パラメータを作成する固定された(反復不可能な)イベントに対する不確実性を表現する定量化可能な方法にすぎないということです。それは人々が以前のをどのように解釈するのですか?θθθPθ


ユーモラスなメモ:

彼女がどうやってそれをやっているのかを「自然」に尋ねて、これを一度に解決することができればいいのに...


4
「パラメータを作成するイベント」に数量化を適用するとは思わない。むしろ、以前のモデリングは、に関する以前の信念と知識の限界を定量化したものです。θθ
西安

4
私にとって、データ生成方法は、非ベイジアンの場合と同様にベイジアンの場合とまったく同じです。つまり、いくつかの真のパラメーター値があり、そのパラメーターはモデルの仮定に従ってデータを生成します(モデルが真の場合)。
ジャラドニエミ2015年

@jaradniemi私にとってはほぼ同じだと思いますが、そもそもがどのように選択されたかを指定することで、1つの詳細が異なります。私にとって、最初に確率変数は真の「前の」に従って自然に選択された値を取り、次に説明したようにデータの生成を開始します。θθPバツ
ピノキオ2015年

2
@西安(+1)。それにもかかわらず、「以前のモデリングは、私たちの以前の信念と知識に関する限界の定量化である」と書きました。「制限」という言葉の目的がわかりません。これについて詳しく教えていただけますか?
peuhp

回答:


3

非常に簡単です。データ生成モデルの考え方に関して、ベイジアンと常連客の間に違いはありません。

これを理解するために、まずデータ生成モデルが尤度で数学的にエンコードされていることを考慮してください。これは、ベイジアンと頻度論者の推論の基礎になります。そして、ベイジアンの可能性と頻度主義の可能性の間に差はありません。

さて、あなたは言うことができます:それは、ベイジアンがデータ生成プロセスのパラメータが固定されていると考えることを意味しません。確かに、しかし実際には、そうでないと考えることはほとんど意味がありません。固定されていない数量を見積もる意味は何でしょうか?数学的にはどういう意味ですか?もちろん、値ではなく分布である数量がある場合もあります。しかし、それから分布を見積もるので、再び修正されます。

@ Xi'anが言うように、本当の違いは、データの生成方法に関する仮定ではなく、推論にあります。だから、あなたが言うとき

ただし、ベイジアン設定では、パラメーターを確率変数としてモデル化します。

私は同意しません- 真のパラメーターに関する知識/不確実性を確率変数としてモデル化します-これは微妙ですが重要な違いです-パラメーターを確率変数として扱い、それらの「真の」値に関する不確実性を調査します。


「固定されていない数量を見積もるポイントは何ですか?」まあ、一般的に、現実の世界では、時間とともに変化する動的なシステムがあるので、時間とともに変化する量を推定するユースケースがあります。
nbro

はい、しかしそれはポイントではありませんでした。問題は、ベイズ推定が、推定したものの真の(固定された)値が存在すると仮定するかどうかでした。あなたの例では、問題は、動的システムが各時点で真の状態を持っていると推論が仮定するかどうかです。
Florian Hartig

2

Gelman et al。、3rd ed。によるBDAのページ3と4は、照らしています。ベイズ統計は、観測可能量と観測不可能量の確率モデルを使用してデータから推論することを目的としています。区別が常に明確であるとは限らない場合でも、観察できない量をパラメーターと呼びます。ベイジアン統計では、モデルに含まれる変数に関するすべての不確実性は、確率を使用して表されます。したがって、完全な確率モデル、つまりすべての結合確率を設定する必要があります。観測可能と観測不可能の両方の問題に関係する変数、つまりパラメータ。これは、ランダム変数を使用して両方を表すことを意味します。これは、パラメーターがランダムであると信じているという意味ではありません。それは、パラメーターの実際の値に関する知識が限られていることを意味し、事前確率分布を通じてデータ観察する前に、限られた知識を表します。次に、特定の尤度関数を生成するデータ生成プロセスのモデルとベイズのルールを使用して、観測されたデータのデータと条件を観測し、事後確率分布を取得します。事後確率分布は、観測できない量。

言い換えると、パラメーターにランダム変数を使用しているのは、真のパラメーターがないと考えているからではなく、それらの知識が限られているためです。これは、測定可能な変数のデータを観察すると改善されますが、完全には消えません。実際には、事後分布がディラックデルタになる傾向がある技術的な条件があります(そのため、パラメーターを表すために使用される確率変数は縮退して、0になる観測数の制限になります)。パラメータの「真」の値。これはあまり意味がありません。確かに、これらの条件は常に有効であるとは限りませんが、多くの標準ベイジアン分析(すべてではないにしても)では、真のモデルの存在と、観測不能の真の値または固定値の存在を疑うことはありません。


1
したがって、ベイジアンの解釈を持つ人々(つまり、私たちが単に無知である真のモデルがあります)の場合、データ生成プロセスは通常と同じであるように見えます。つまり、真のパラメーターがデータ(x、y)を生成します
ピノキオ2016

1
もちろん。上で書いたように、そして@FlorianHartigがより長く議論したように、データ生成プロセスは尤度関数を定義し、尤度関数は両方のパラダイムで同じ方法で定義されます。
DeltaIV 2016

1

これは、ベイジアンフレームワークでのデータ生成プロセスを解釈する標準的な方法ですか?

いいえ、これは標準的な解釈ではありません。実際、ベイズ統計の標準的な基礎である確率の「主観的」解釈は、すでに質問で認識されています。「主観的」解釈(より適切には「認識的」解釈と呼ばれます)では、パラメータの事前確率分布と事後確率分布を使用して、モデル内の未知のパラメータに関するユーザーの不確実性を表します。このアカウントの下では、自然の中で発生する対応する形而上学的プロセス、または自然の中でのランダム性の仮定はありません。確かに、この見解の下では、ベイズのパラダイムは理論をまったく提供していません自然の「データ生成プロセス」について。自然界の不確実性をモデル化する数学的な方法を提供するだけで、推論および予測理論を形成します。

後者の説明は、確率傾向理論の例です。これは、確率計算に類似した自然の形而上学的なプロセスが存在すると仮定しています。この確率の解釈では、確率の法則に従って結果がランダムに発生するために、本質的にいくつかの組み込みの形而上学的な「傾向」があると想定しています。ほとんどのベイジアンと同様に、私は常に傾向の説明が少しばかげていると思っていました。それは、私たち自身の思考モードを自然に投影し、認識論的な方法や構造に自然の類似物があると仮定することは、人間の傾向の実例です。(したがって、「傾向解釈」は、確率の1つよりも適切には人間の傾向理論です。)

さて、あなたは確率の主観主義的解釈を採用することに決めるかもしれませんし、私に同意せずに傾向解釈を採用することに決めるかもしれません。いずれにせよ、これらの2つの異なる解釈を同等に主張すると、ひどい混乱に陥ることになります。それはおそらくあなたに現在あなたに困難を与えているものです。


-1

θ

θ

ベイジアンビューのデータは、「真のシステム」によって生成されます。これは、正しくモデル化することはできません。したがって、想定モデルの基になる真のパラメーターは存在できません。


5
上記の解釈には同意しません。標準のベイズ分析では、モデルの妥当性に不確実性はありません。事前分布は、パラメーターに関する入手可能な情報の不確実性を表しています。これは、固定値パラメーターや真のパラメーターがないという意味ではありません。
西安

@ Xi'an:あなたが言うように、標準ベイズ分析はモデルの適切性に不確実性を置きません:確率モデルは私たちの以前の信念を表しています-それらが適切であるかどうかは別の問題です。しかし、誰が彼のモデルが実際に根本的なシステムを完全に表すことができると主張することができますか?このリンクが欠落している場合は、固定パラメーターになる可能性があります。しかし、それは「真のパラメータ」ではありません-「真のパラメータ」を実際にデータを生成したものとして定義した場合。
サミット
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.