ベイジアンはいつ（そしてなぜ）有効なベイジアン手法を拒否するのですか？[閉まっている]

私が読んだものとここで私が尋ねた他の質問への回答から、多くのいわゆる頻出法は数学的に対応しています（哲学的に対応しているかどうかは気にせず、数学的に対応しているかどうかは気にしません）ベイズ法（これに反対する人は、この質問の最後にある注を参照してください）。（私のではなく）関連する質問に対するこの回答は、この結論を裏付けています：

ほとんどのFrequentistメソッドには、ほとんどの状況で基本的に同じ結果が得られるベイジアン等価があります。

以下では、数学的に同じであることは、同じ結果を与えることを意味することに注意してください。常に「異なる」と同じ結果をもたらすことが証明できる2つの方法を特徴付ける場合、それはあなたの権利ですが、それは哲学的判断であり、数学的なものでも実際的なものでもありません。

「ベイジアン」と自己記述している多くの人々は、しかしながら、それは「頻度論的方法」であるため、（数学的に）ベイジアン法の特別なケースであるにもかかわらず、どんな状況でも最尤推定の使用を拒否するようです。どうやらベイジアンは、ベイジアンの観点からこれらの分布も数学的に正しいとはいえ、頻度に比べて制限された/限られた数の分布を使用しているようです。

質問：ベイジアンは、ベイジアンの観点から数学的に正しい方法をいつ、なぜ拒否するのですか？これについて「哲学的」ではない正当化はありますか？

背景/コンテキスト：以下は、CrossValidatedに関する私の以前の質問に対する回答とコメントからの引用です。

ベイジアン対頻出論争の数学的根拠は非常に単純です。ベイジアン統計では、未知のパラメーターは確率変数として扱われます。頻出統計では固定要素として扱われます...

上記から、（数学的に言えば）ベイジアン法はベイジアン法と同じ数学の仮定のすべてを満たしているが、その逆ではないという意味で、ベイジアン法は頻出主義の方法よりも一般的であると結論づけました。しかし、同じ答えは、上記からの私の結論は間違っていたと主張しました（以下の強調は私のものです）：

定数は確率変数の特殊なケースですが、ベイジアンがより一般的であると結論するのをためらいます。単に確率変数を定数に折りたたむだけでは、ベイジアンの結果から頻繁な結果を得ることはできません。違いはもっと深いです...

個人的な好みに行きます... ベイジアン統計が利用可能な分布のかなり限定されたサブセットを使用するのが好きではありません。

別のユーザーは、回答でベイズ法がより一般的であると反対に述べていますが、奇妙なことに、これがなぜそうであるのかについて私が見つけることができた最良の理由は、頻度論者として訓練された誰かによって与えられた前の回答でした。

数学的帰結は、頻度論者は確率の基本方程式がたまにしか当てはまらないと考え、ベイジアンは常に当てはまると考えているということです。したがって、彼らは同じ方程式を正しいと見なしますが、それらがどれほど一般的であるかは異なります...ベイジアンは、頻度論よりも厳密に一般的です。事実には不確実性があるため、どの事実にも確率を割り当てることができます。特に、作業しているファクトが実際の頻度に関連している場合（予測しているものまたはデータの一部として）、ベイズ法は、他の実際のファクトと同じようにそれらを考慮して使用できます。したがって、問題が頻繁に発生すると、ベイジアンに適用される方法が自然に取り組むことができます。

上記の回答から、私は一般的に使用されているベイジアンという用語の少なくとも2つの異なる定義があるとの印象を持っています。最初に、定数RVであるパラメーターと定数RVではないパラメーターが含まれているため、統計のすべての方法を網羅する「数学的にベイジアン」と呼びます。次に、「文化的にベイズ的」な方法が「頻繁に使用される」ため、「文化的にベイズ的」な方法を拒絶する「文化的ベイズ的」があります（つまり、定数または頻度としてモデル化されているパラメータに対する個人的な敵意から）。前述の質問に対する別の回答もこの推測をサポートしているようです。

また、2つのキャンプが使用するモデル間には、実行できることよりも実行されたものに関連するモデルがたくさんあります（つまり、一方のキャンプで従来使用されている多くのモデルは、もう一方のキャンプで正当化できます））。

ですから、私の質問の別の言い方は次のようになると思います：文化的なベイジアンが数学的に多くのベイジアン手法を拒否するのに、なぜベイジアンと呼ばれるのですか？そして、なぜ彼らはこれらの数学的なベイズ法を拒否するのですか？それらの特定の方法を最も頻繁に使用する人々にとって、それは個人的な敵意ですか？

$i$ 推定値に同じ値を指定します。これらは同じプロパティを持っているため、数学的に同等です。おそらく、哲学的な違いは個人的には関係がありますが、この質問には関係ありません。

注：この質問には、元々MLE推定とMAP推定の特性が不正確であり、以前は一様でした。

bayesian frequentist philosophical

— Chill2Macht
ソース

P r (θ \in [0, 1] ∣ y)

$Pr(\theta \in [0,1] \mid y)$

θ ∣ y

$\theta \mid y$

\neq

$\neq$

MLEとMAPには同じ数学的な特性はありません。変数を再パラメーター化すると、MLEとMAPの変換が異なります（MLEはすべてのパラメーター化で「フラットな事前」を持っているため、MAPにはありません）。数学的オブジェクトの定義には、変数の変換などの演算子の下でのオブジェクトの動作が含まれます（たとえば、テンソルの定義を参照）。したがって、それらは同じものではありません。

— lacerbi

今のところ誰もこれについて言及していないのは驚くべきことなので、私はそれを（短い）答えにします。私はまた、それを簡単に見逃すことができる微妙なものであるため、過去に何度も説明しなければなりませんでした。

— lacerbi 2016

チェスセットでドラフトをプレイしたことがありますか？時々、チェスのポジションが有効になり、チェスの合法的な動きをすることができ、ドラフトの合法的な動きにもなります。もちろん、良いチェスの動きは常に良いドラフトの動きとは限りません。そして、それがチェスの動きでもあるからといって、良いドラフトの動きを避けることはできません。その黒い四角が白になったり...統治初期位置＆ルールスワップので、これはむしろ英語よりもフランス語でチェスのゲームを記述するから、またはボードを回転させるとはかなり異なっている

— Scortchi -復活モニカ

回答:

元の投稿の誤った仮定、比較的よくある間違いを修正したいと思います。OPは言う：

私が読んだものとここで私が尋ねた他の質問への回答から、最尤推定は数学的に一致します（哲学的に一致するかどうかは気にせず、数学的に対応するかどうかのみ気にします）。これに反対する人は、この質問の下部にある注を参照してください）。

そして、投稿の下部にあるメモによれば、

2つのオブジェクトは、構築方法に関係なく、同じプロパティを持っている場合、数学的には同等です。[...]

私の反対は、哲学はさておき、最尤推定（MLE）と最大事後（MAP）推定は同じ数学的特性を持っていないということです。

重要なことに、MLEとMAPは、空間の（非線形）再パラメーター化の下で異なる変換を行います。これは、MLEにはすべてのパラメーター化で「フラットな事前分布」があるために発生しますが、MAPにはありません（事前分布は確率密度として変換されるため、ヤコビアン項があります）。

数学的オブジェクトの定義には、変数の変換などの演算子の下でのオブジェクトの動作が含まれます（たとえば、テンソルの定義を参照）。

結論として、MLEとMAPは哲学的にも数学的にも同じものではありません。これは意見ではありません。

— ラセルビ
ソース

多分私はあなたのポイントを逃したと思います。MLEからの点推定が、事前分布が均一なMAPからの点推定と等しくないようにモデルをパラメーター化することは可能ですか？（明らかに、MAPの場合、等式が機能するためには、現在のパラメーター化に関して事前分布が均一である必要があります。事前分布を変更せずにモデルを再パラメーター化すると、通常は均一ではなくなります。）

— コディオロジスト2016

@Kodiologist：OPは、MAPとMLEは同一の「数学オブジェクト」であると述べていました。ではない。異なる数学オブジェクトは、部分空間で（たとえば、特定のパラメーター化で）等しくなる可能性がありますが、それらは同一にはなりません。「他のパラメータ化については気にしない」と言うこともできますが、実際には強い実用上の制限を課しています。OPが当初主張していたように、それはもはや「単なる」哲学的な点ではありません。

— lacerbi 2016

個人的には、私は「常連」や「ベイジアン」ではなく「プラグマティスト」なので、どんなキャンプについても発言することはできません。

とは言っても、おそらくMLEとMAPではなく、ポイントの推定と事後PDFの推定の違いは、おそらくMLEとMAPの違いではないと思います。データがまばらで不確実性が大きい分野で働いている科学者として、誤解を招く可能性のある「最良の推測」の結果に過度の信頼を置きたくないことと共感でき、結果として自信過剰になります。

関連する実用的な区別は間にあるパラメトリック対ノンパラメトリック方法。したがって、たとえば、カルマンフィルタリングとパーティクルフィルタリングの両方が、再帰ベイズ推定として受け入れられると思います。ただし、事後が単峰型でない場合、カルマンフィルター（パラメトリック法）のガウスの仮定は、非常に誤解を招く結果をもたらす可能性があります。私にとってこれらの種類のエンジニアリングの例は、違いが哲学的でも数学的でもないが、実際的な結果の点で明らかになる場所を強調します（つまり、自律車両がクラッシュしますか？）。私が精通しているベイジアン愛好家にとって、この「効果を確認する」エンジニアリングスタイルの態度が優勢であるように思われます...これがより広く当てはまるかどうかはわかりません。

— GeoMatt22
ソース

ノイズがガウスモデルか別の分布モデルかは、メソッドがパラメトリックかノンパラメトリックかを決定するものではありません。

— クリフAB

パーティクルフィルタリングとカルマンフィルタリングを考えていました。

— GeoMatt22

@CliffAB「ガウス<==>パラメトリック」という意図しない影響を修正するために回答を編集しました

— GeoMatt22

私の経験では（まったく包括的ではありませんが）、「技術」分野のエンジニアを対象とした本は、このようなものになる傾向があります。ロボット工学やその他のリアルタイム/堅牢なアプリケーションのようなものは、物事が機能していないときにすぐにわかる傾向があります。おそらく名目上はベイジアンですが、セバスチャンスランの確率的ロボティクスは私に啓蒙的でした。彼はウダシティの男です。

— GeoMatt22

私はこの領域をまったく研究していませんが、私の印象では、古典的な信頼性工学の多くは「頻繁な」アプローチを使用しているので、これは実用的なテキストの領域かもしれません。

— GeoMatt22

しかし、「ベイジアン」と自己記述している多くの人々は、それが（数学的に）ベイジアン法の特別なケースであるにもかかわらず、「頻度論的方法」であるため、いかなる状況でも最尤推定の使用を拒否するようです。

そのような人々は、ポイント推定を行うための一般的な方法としてMLEを拒否します。彼らが均一な事前分布を使用する理由があり、最大の事後推定を作成したい特定のケースでは、それらの計算がMLEと偶然一致することでまったく気になりません。

どうやらベイジアンもベイジアンの観点から数学的に正しいとはいえ、頻度分布に比べて制限された/限られた数の分布を使用しているようです。

たぶん、時には、それらの計算を簡単にするためですが、原則の観点からではありません。

一般的に使用されているベイジアンという用語には、少なくとも2つの異なる定義があると思います。最初に、定数RVであるパラメーターと定数RVではないパラメーターが含まれているため、統計のすべての方法を網羅する「数学的にベイジアン」と呼びます。次に、「文化的にベイズ的」な方法が「頻繁に使用される」ため、「文化的にベイズ的」な方法を拒絶する「文化的ベイズ的」があります（つまり、定数または頻度としてモデル化されているパラメータに対する個人的な敵意から）。

ベイジアン推論への異なるアプローチの間には確かに違いがありますが、これは違います。ベイジアン主義がより一般的であるという感覚がある場合、確率論の概念をパラメーター値についての認識論的不確実性に適用することは喜んでいます。頻度論的推論はベイジアン推論の特別なケースではなく、回答やコメントもありませんベイジアン対頻度論争の数学的な根拠はありますか？それがそうであることを意味しています。ベイジアンアプローチでパラメーターを一定の確率変数と見なした場合、データが何であっても同じ事後結果が得られます。つまり、定数であると言えますが、何と言っても何の値を取るべきかわからないのです。言う価値があります。頻度主義のアプローチは、まったく異なるタックを取り、事後分布の計算をまったく含みません。

— Scortchi-モニカの回復
ソース

「頻度主義的アプローチは、まったく異なるタックを取り、事後分布の計算をまったく含まない」-それは私のポイントではありませんが。私は哲学的な意図について話しているのではなく、数学的同等性について話している。彼らは正の数を足したり引いたりするだけで負の数の使用を拒否するので、彼らは「減法主義者」であると誰かが言うかもしれません。哲学的にはそうかもしれませんが、数学的に言えば、正の数を引くことは負の数を足すことと同じことです。

— Chill2Macht 2016

私が言おうとしているのは、「数学的にベイジアン」は、確率の概念をパラメーター値に関する認識の不確実性に適用することも適用しないことです。「文化的にベイジアン」は、確率の概念をパラメーター値についての認識論的不確実性にのみ適用します（決して適用しません）。「頻度論者」は、パラメーター値に関する認識論的不確実性に確率を適用しない（そして決して適用しない）だけです。私が言っているのは、「ベイジアン推論＝文化的にベイジアン」と「頻度主義」の両方が、人々が言っていることに基づく特別なケースのように見えるということです。

— Chill2Macht

とにかく私は、常連統計についてさらにコメントする前に、ファンデルファールトの漸近統計を読んでみようと思いますが、カゼッラとバーガー、およびベイジアンのゼロの教科書をすでに読んだので、確率の概念を「データ生成プロセスの偶然の不確実性のみ」に適用します。これは、あなたが書いたものの他の部分と矛盾しているように見えるためです。

— Chill2Macht

3 - 5

$3-5$

パラメトリック統計推論のモード、およびバーネット（1999）、比較統計推論。（4）頻度主義アプローチは、与えられたパラメーター値の下でのデータの確率のみを考慮します。事後を取得するための観測データのベイジアンアプローチ条件。

— Scortchi-モニカを回復