頻度と事前


17

Robby McKilliamは、この投稿へのコメントで次のように述べています

頻度論者の観点から、事前知識をモデルに組み込むことができない理由はないことに注意してください。この意味で、頻繁なビューはより単純であり、モデルといくつかのデータのみがあります。モデルから事前情報を分離する必要はありません

また、ここでは、@ jbowmanは、頻度が高い人はコスト/ペナルティ関数による正則化を使用し、ベイジアンはこれを事前に行うことができると言います。

頻度の高い専門家は、正則化が優れていることを認識し、最近では非常に一般的に使用しています。そして、ベイジアン事前分布は正則化として簡単に解釈できます。

だから、私の質問は、ベイジアンが事前分布として指定するものを一般に頻繁に彼らのモデルに組み込むことができますか?正則化を例にとると、コスト/ペナルティ関数は本当にモデルに統合されているのでしょうか、あるいはこれはソリューションを調整する(またユニークにする)純粋に人工的な手段ですか?


モデレーターはjbowmanとRobbyに通知して、彼らが詳しく説明できるようにしますか?それとも適切ではありませんか?
パトリック

1
パトリック、「@」構文を使用してこのサイトのメンバーに通知できます。これを小さな編集で説明しました。
whuber

両方の場所で機能します:-)。
whuber

ジー、@ whuber、私は通知されませんでした...多分編集はそれをしないのですか?今、私は興味があります。
jbowman

1
OK、私は間違っていたことがわかりました。「@」メカニズムは質問ではなくコメントで機能します。(しかし、jbowmanはとにかくこの質問を見つけました。)
whuber

回答:


8

Robby McKilliamのコメントに関して:私は、頻繁な専門家がこれに関して持つ難しさは、「事前知識」の定義にあると思いますが、モデルに事前知識を組み込む能力にはそれほどありません。たとえば、特定のコインが頭に浮かぶ確率を推定することを検討してください。私たちは、私の事前の知識が、基本的に、そのコインを10回裏返しと5頭を思い付いた、またはおそらくフォームの「工場は100万枚のコインを作った、とのdist'nされていた実験だったと仮定しましょう、など巨大な実験によって決定され、pβ(a,b)「。このタイプの事前情報を実際に持っているときは誰もがベイズのルールを使用します(ベイズのルールは条件付き確率を定義するだけで、ベイジアンのみのことではありません)。 Bayesのルールを介してモデルに情報を組み込みます(注意:サンプルサイズが十分に大きくないため、以前の情報が結果に影響を与えないことが確実である場合を除きます)。しかし、結果の解釈はもちろん、違います。

知識が客観的/実験的でより主観的になるにつれて、特に哲学的な観点から困難が生じます。これが起こると、フリークエンシストはこの情報をモデルに組み込む傾向が少なくなりますが、ベイジアンにはそれを行うための多少の正式なメカニズムがありますが、主観的な事前を引き出すのは困難です。

正則化に関して:尤度および事前考慮してください。少なくとも技術的には、頻度論者がによって「正規化された」最尤推定を使用することを防ぐものはありません。l(θ;x)p(θ)logp(θ)

θ~=maxθ{logl(θ;x)+logp(θ)}

以下のためガウス、二次ペナルティには、この量は縮小ガウスの平均値に向けて、など他のディストリビューションのために。は、同じ尤度関数と事前分布を使用したベイジアンの最大事後(MAP)ポイント推定値に等しくなります。もちろん、ここでも、頻度主義者とベイジアンの推定値の解釈は異なります。また、ベイジアンは、完全な事後分布にアクセスできるMAPポイント推定値を使用するように制約されません-しかし、その後、フリークエンシーは、正規化された対数尤度を最大化する必要はありません。 -モーメントなど(利用可能な場合)。p(θ)θθ~

ここでも、哲学的な観点から困難が生じます。なぜある正則化関数を別の正則化関数よりも選択するのですか?ベイジアンは、以前の情報を評価することで、以前のベースのビューに移行することができます。頻度の高い人は、これらの理由で選択を正当化するのに苦労します(できませんか?)多くの統計学者の仕事/経験。OTOH、(実用的な)ベイジアンは事前確率でもそれを行います-分散の事前確率に関するすべての論文に100ドルを持っているなら...

その他の「考え」:頻度関数/ベイジアン視点の影響を受けないと仮定して、尤度関数を選択する問題全体をスキップしました。たいていの場合はそうだと思いますが、異常な状況では、例えば計算上の理由で起こると想像できます。

要約:いくつかのコーナーケースを除き、フリークエンシストは、厳密に数学的および計算上の観点から、ベイジアンができるモデルに以前の情報をほとんど組み込むことができると思います。もちろん、結果の解釈は異なります。私は、しかし、frequentistは例えば、すべての場合にはそうする哲学正しいとみなします信じていない、実際について何か知っている廊下の人どこ上記の正則化関数言うには「私が思うにする必要があります約1.5インチ。そして、例えばジェフリーの過去を経て、無知に近いものを取り入れることはまさに正しいことです。θθ


したがって、私があなたを正しく理解していれば:技術的に、正式に、頻繁な人は好きなだけ規則化するかもしれませんが、それを正当化する問題があります。ベイジアンは正則化を定量化するのにまだ苦労するかもしれませんが、定性的にそれを組み込む一貫した方法を持っています。
パトリック

また、ベイジアンは、完全な事後分布にアクセスできるMAPポイント推定値を使用するように制約されません-しかし、その後、フリークエンシーは、正規化された対数尤度を最大化する必要はありません。 -モーメントなど(利用可能な場合)。 フリークエンティストは最大化する必要はありません。しかし、それでも、フリークエンティストが利用できる方法です。私の考えでは、歴史的な理由で(コンピューターはありません!)頻度の高い専門家は、完全な尤度関数を計算する代わりに、多くの賢明な推定器を使用しています。
パトリック

5

この質問に答えるために、頻度を「データの関数のサンプリング分布の特性に関心がある」と定義することは有用です。そのような関数は、点推定器、検定統計量のp値、信頼区間、Neyman-Pearson検定結果、または基本的に考えられるその他のものです。頻度は、推定量、p値などを完全に一般的に構築する方法を指定しませんが、いくつかのガイドラインが存在しますが、たとえば、使用可能な場合は十分な統計を使用し、使用可能な場合は重要な統計を使用します。観点では、事前情報はモデル自体に組み込まれているのではなく、関数の出力にデータをマッピングする関数に組み込まれています。

上記の「関心」は、バイアスの欠如、漸近的整合性、分散、平均二乗誤差、平均絶対誤差、信頼カバレッジ(特に名目対実際)、タイプIのエラー制御など、推論に重要と見なされるプロパティにあります。それ以外の場合は、データから学習するための明白または直感的な重要性があります。これらのプロパティは、関数に事前情報が組み込まれているかどうかに関係なく(他に何もなければシミュレーションによって)評価できます。

特に関心があるのは、データ生成プロセスの基礎となる実際のパラメーター値に関係なく保持できることがわかっているプロパティです。たとえば、分散が既知の通常のiidモデルでは、データ平均は偏りがなく、それが何であれ分布平均に対して漸近的に一貫しています。対照的に、収縮推定量(データ平均の加重平均と分布平均の事前推定)は、分布平均が事前推定に近い場合は平均二乗誤差が低くなりますが、それ以外の場合は平均二乗誤差が高くなります。データ平均から漸近的整合性を継承します。

したがって、事前の情報を推論方法に入れることはできますが、モデルには入りません。必然的に非負である物理的特性の信頼区間のコンテキストで概説した概念の実に素晴らしい例は、Feldman and Cousins、小信号の古典的統計分析への統一アプローチです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.