予測推論には、どのような非ベイジアン手法がありますか?


22

ベイジアン推論では、未知のパラメーターを統合することにより、将来のデータの予測分布が導出されます。これらのパラメーターの事後分布を統合すると、事後予測分布が得られます。これは、既に観測されたデータを条件とする将来のデータの分布です。パラメーター推定値の不確実性を考慮する予測推論の非ベイジアン手法は何ですか(つまり、最尤推定値や密度関数に戻るものを単にプラグインしない)。

線形回帰後の予測間隔の計算方法は誰もが知っていますが、計算の背後にある原理は何ですか?他の状況でそれらをどのように適用できますか(たとえば、データからレートパラメーターを推定した後に新しい指数変量の正確な予測間隔を計算する)?


6
これは素晴らしい質問だと思います。少なくとも部分的な答えを提供したいと思いますが、しばらくの間は正義をする時間がないでしょう。だから、今のところこれに報奨金をかけるつもりです。 。
Glen_b -Reinstate Monica

3
@ DavidC.Norrisなぜそれ以上のパラメーター不確実性のソースが必然的に存在することを主張する必要があるのか​​わかりません(そのため、予測推論は、それとプロセス自体のランダムな変動性の両方を考慮する必要があります)。かなり基本的な例でも、それ自体は自明ではありません。たとえば、ポアソンまたは負の二項回帰からの予測の合計の予測区間を作成してみてください。また、カテゴリー(混合モデルを使用する人々など)全体でパラメーターにばらつきがあると想定するために、ベイジアンである必要はありません。
Glen_b-モニカを復活させる

2
@ DavidC.Norris:単純な事後予測分布の計算は、ベイジアン統計のすべての紹介で説明されているので、非ベイジアン法について尋ねましたが、予測間隔を計算する一般的な頻度法は広く知られていません。
Scortchi -復活モニカ

2
@EngrStudent、ブートストラップは元のデータをリサンプリングすることで機能するため、不確実性の原因としてサンプリングの変動のみを処理する他の頻繁な手法と同じカテゴリーに分類されます。不確実性自体の概念を拡張するものではありません。
デビッドC.ノリス

3
@ DavidC.Norris:これ、他の種類の不確実性を考慮に入れる非ベイジアン手法ではなく、パラメータに関する推論ではなく、将来の観測の予測に影響を及ぼす不確実性の原因としてのサンプリング変動です。
Scortchi-モニカの復職

回答:


20

(SLRの場合を除き)非ベイジアン予測推論は比較的最近の分野です。「非ベイジアン」という見出しの下で、「古典的」頻度主義者に対するアプローチと「可能性」ベースのアプローチに細分化することができます。

古典的な周波数主義者の予測

ご存じのように、頻繁な「ゴールドスタンダード」は、サンプリングを繰り返しても公称カバレッジを達成することです。たとえば、95%の信頼領域に、同じ基礎母集団のサンプルの95%に真のパラメーターを含める必要があります。または、平均でおよび等しい仮説検定でタイプIおよびIIのエラーをコミットすることが予想されます。最後に、この質問と最も密接な関係があるのは、95%の予測間隔に95%の時間で次のサンプルポイントが含まれることです。βαβ

今では、ほとんどの統計コースで古典的なPIがどのように提示され、教えられているかという問題が一般的にあります。圧倒的な傾向は、これらをベイジアン事後予測間隔として解釈することです。最も基本的に、彼らは異なる確率について話している!ベイジアンは、その量の繰り返しサンプリング性能については主張していません(そうでなければ、彼らは頻繁にいるでしょう)。第二に、ベイジアンPIは、実際には、クラシカル予測インターバルよりもクラシカルトレランスインターバルに近い精神で何かを達成しています。

参考:許容範囲は、信頼度とカバレッジの2つの確率で指定する必要があります。自信は、繰り返されるサンプルでどれくらいの頻度で正しいかを教えてくれます。カバレッジは、真の分布の下での間隔の最小 確率測度を示します(PIは、繰り返しサンプリングの下で期待される確率測度を繰り返します)。これは基本的に、ベイジアンPIが試みていることですが、サンプリングの繰り返しの主張はありません。

したがって、Stats 101 Simple Linear Regressionの基本的なロジックは、正規性の仮定の下でPIの繰り返しサンプリングプロパティを導出することです。通常は「古典的」と考えられ、イントロの統計クラスで教えられる頻度主義者とガウスのアプローチ。これは、結果の計算の単純さに基づいています(概要については、Wikipediaを参照してください)。

非ガウス確率分布は、間隔を取得するためにきちんと反転​​できる重要な量を欠く可能性があるため、一般に問題があります。したがって、これらの分布には「正確な」方法はありません。これは、多くの場合、間隔のプロパティが真の基礎となるパラメーターに依存するためです。

この無能さを認識して、尤度アプローチで別のクラスの予測(および推論と推定)が発生しました。

尤度ベースの推論

多くの現代の統計概念のように、尤度ベースのアプローチはロナルドフィッシャーにまでさかのぼることができます。この学校の基本的な考え方は、特別な場合を除き、統計的推論は、正確な確率ステートメントを作成できる正規分布(パラメーター推定値が直交)からの推論を処理する場合よりも論理的に弱いということです。この推論の見方では、正確な場合を除き、確率に関する記述を実際に避ける必要があります。そうでない場合は、尤度に関する記述を行い、エラーの正確な確率を知らないことを確認する必要があります(頻繁な意味で)。

したがって、尤度はベイジアン確率に似ていますが、積分可能性の要件や、頻度論的確率との混乱の可能性はありません。その解釈は完全に主観的です...しかし、0.15の尤度比はしばしば単一パラメータの推論に推奨されます。

ただし、「尤度間隔」を明示的に示す論文はあまり見られません。どうして?私たちは皆、確率ベースの信頼性ステートメントに慣れてきたため、これは主に社会学の問題であると思われます。代わりに、よく見られるのは、そのようなものの「近似」または「漸近的」信頼区間に言及している著者です。これらの間隔は、サンプル平均の漸近正規性に依存するのとほぼ同じ方法で、尤度比の漸近カイ二乗分布に依存している尤度法から大部分が導出されます。

この「修正」により、ベイジアンとほぼ同じ論理的一貫性を持つ「近似」95%信頼領域を構築できるようになりました。

Likelihood FrameworkでのCIからPIへ

上記の可能性アプローチの成功と容易さにより、予測にそれを拡張する方法についてのアイデアが生まれました。これに関する非常に素晴らしい調査記事がここにあります(その優れた報道を再現しません)。この用語は、1970年代後半にデビッドヒンクリー(JSTORを参照)にまでさかのぼることができます。彼はそれを多年生の「ピアソンの二項予測問題」に適用しました。基本的なロジックを要約します。

yyy

予測尤度を取得するために「迷惑」パラメータを取り除くための基本的なルールは次のとおりです。

  1. μσ
  2. パラメーターがランダムな場合(たとえば、他の観測されていないデータまたは「ランダム効果」)、それらを統合します(ベイジアンアプローチの場合と同様)。

固定パラメーターとランダムパラメーターの区別は尤度推論に固有ですが、混合効果モデルへの接続があり、ベイジアン、頻度、および尤度のフレームワークが衝突するようです。

うまくいけば、これが「非ベイジアン」予測の広い領域(およびその問題の推論)に関するあなたの質問に答えたことを願っています。ハイパーリンクは変更される可能性があるため、「In Like Likelihood:Statistics Modeling and Inference using Likelihood」という本のプラグインも作成します。推論と予測。


参照資料

  1. 予測間隔:ノンパラメトリック法。ウィキペディア。2015年9月13日アクセス。
  2. Bjornstad、Jan F. 予測可能性:レビュー。統計学者。科学 5(1990)、いいえ。2、242--254。doi:10.1214 / ss / 1177012175。 http://projecteuclid.org/euclid.ss/1177012175
  3. デビッド・ヒンクリー。予測尤度。統計年報集。7、No。4(1979年7月)、pp。718-728発行者:Institute of Mathematical Statistics Stable URL:http ://www.jstor.org/stable/2958920
  4. ユディ・パウィタン。すべての可能性:可能性を使用した統計モデリングと推論。 オックスフォード大学出版局; 1版(2001年8月30日)。ISBN-10:0198507658、ISBN-13:978-0198507659。特に5.5〜5.9、10、および16章。

5

「パラメーター推定の不確実性を考慮した、予測推論のための非ベイジアン手法は何ですか?」という質問に対する具体的な回答を取り上げます。私は、不確実性の意味を拡大することについて答えを整理します。

統計分析が、予測を含むさまざまな種類のクレームをサポートすることを願っています。しかし、私たちは自分の主張について不確かなままであり、この不確実性は多くの情報源から生じています。頻度統計はサンプリングから特に生じる不確実性のその部分のみに対処することを中心に特徴的に組織されています。サンプリングは、歴史的に多くの刺激を頻繁な統計の発展に提供してきた農業分野の実験における不確実性の主な原因であった可能性があります。しかし、現在の最も重要なアプリケーションの多くでは、そうではありません。現在、モデルの仕様ミスやさまざまな形式のバイアスなど、他のあらゆる不確実性について心配しています。

Sander Greenlandには、これらの他の不確実性の原因を考慮することがいかに重要であるかを指摘する素晴らしいディスカッションペーパー[2]があり、これを達成する手段として複数バイアス分析を規定しています。彼は理論を完全にベイジアン用語で展開しますが、これは当然です。モデルパラメータに関する不確実性の形式的で一貫した処理を進めたい場合、当然、パラメータの推定(主観)確率分布に導かれます。この時点で、あなたはベイジアンデビルに負けているか、ベイジアン天国に入国しています(宗教によって異なります)。

「非ベイジアン手法」を使用してこれを実行できるかどうかについての質問、@ Scortchiには、非ベイジアンの回避策が[3]に示されています。しかし、あなたの質問を書くのに十分なベイジアン主義を知っている人にとって、そこでの扱いは、いわば「ずるい」ベイジアン計算を実装する試みのように見えます。実際、著者が認めているように(p。4を参照)、本の終わりに向かってより高度なメソッドに近づくほど、メソッドは質問で説明する統合とまったく同じように見えます。彼らは、最終的にベイジアン主義から離れるのは、それらを推定する前に、それらのパラメーターに明示的な事前確率を課さないことだけであると示唆しています。

これを明示的に予測に結び付けるには、推定されたパラメータの関数として「予測」を理解するだけで十分です。[2]では、グリーンランドは表記法使用しますθααθ

  1. Chavalarias、David、およびJohn PA Ioannidis。「科学マッピング分析は、生物医学研究における235のバイアスを特徴付ける。」Journal of Clinical Epidemiology 63、no。11(2010年11月):1205-15。doi:10.1016 / j.jclinepi.2009.12.011

  2. グリーンランド、サンダー。「観測データの分析のための多重バイアスモデリング(議論あり)」。王立統計学会誌:シリーズA(社会統計学)168、no。2(2005年3月):267–306。doi:10.1111 / j.1467-985X.2004.00349.x。

  3. ラッシュ、ティモシーL.、マシューP.フォックス、アリザK.フィンク。疫学的データへの定量的バイアス分析の適用。生物学と健康の統計。ニューヨーク、ニューヨーク:スプリンガーニューヨーク、2009年。http://link.springer.com/10.1007/978-0-387-87959-8


2
ありがとう!これは非常に興味深いように聞こえますが、予測推論で多重/定量的バイアス分析がどのように使用されるかについての簡単な概要を追加できれば便利だと思います。
Scortchi-モニカの復職

予測への接続を明確にするために段落を追加しました。明確化のリクエストをありがとう、@ Scortchi。
デビッドC.ノリス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.