予測間隔を使用して確率的ステートメントを作成できますか？

信頼区間と予測区間の解釈に関するサイト上の多くの優れた議論を読みましたが、1つの概念はまだ少し不可解です：

OLSフレームワークを考えてみると、近似モデルが得られました。が与えられ、その応答を予測するように求められます。私たちは、計算ボーナスとして、我々はまた、私たちの予測を中心に95％予測区間を提供し、そして、ラ・線形モデルで予測制限の式を得ます。この予測間隔をPIと呼びましょう。 $\hat y = X\hat\beta$ $x^*$ $x^{*T}\hat\beta$

さて、PIの正しい解釈は次のうちどれですか（どちらでもありません）？

用 $x^*$ 特に、 $y(x^*)$ 、95％の確率でPI内にあります。
多数のが与えられた場合 $x$ 、PIを計算するこの手順は、95％の時間で真の応答をカバーします。

線形回帰予測間隔の @gungの文言から、前者は正しいように思えます（非常によく誤解される可能性があります）。それが正しいかどう私たちがしているので、それは予測の実現確率変数の対推定パラメータを？

（編集）ボーナスの質問：真のが何であるか、つまりデータを生成するプロセスを知っていると仮定すると、見ているだけで、特定の予測に関する確率について話すことができるでしょうか？ $\beta$ $\epsilon$

これに対する私の最新の試み：（概念的に非常に大まかに言って）予測区間を2つの部分に分解できます。エラー項の範囲。（B）真の予測平均を知っていることを条件に、確率的ステートメントを作成できますが、全体として、予測間隔は、予測値の周りの頻度CIとしてのみ扱うことができます。これはいくらか正しいですか？

regression confidence-interval prediction-interval

— ケビニクオ
ソース

stats.stackexchange.com/a/26704で書いた答えは、（2）のようなものが（多数の法則による）場合に当てはまるが、間違いなく（1）には当てはまらないことを意味します。

— whuber

回答:

第一に、単語確率の使用に関しては、ランダムな断片がまだ発生していない場所を予測する際に、頻度の高い人は単語確率を使用しても問題はありません。信頼区間の単語確率は好きではありません。なぜなら、真のパラメーターは変化せず（未知の値ではあるが固定値であると仮定しているため）、既に収集したデータに基づいているため、区間が固定されているからです。たとえば、成人男性のランダムサンプルからデータが得られ、xが身長、yが体重であり、一般回帰モデルに適合している場合、信頼区間について話すときに確率を使用しません。しかし、65インチのすべての男性からランダムに選ばれた65インチの男性が一定の間隔内に体重を持っている確率について説明したい場合は、

ですから、ボーナスの質問に対する答えは「はい」です。十分な情報がわかっていれば、間隔内でy値が表示される確率を計算できます（または、目的の確率で間隔を見つけます）。

「1」というラベルが付いたステートメントの場合間隔や確率について話すときに「おおよそ」という言葉を使っても大丈夫だと思います。ボーナスの質問で述べたように、不確実性を、予測の中心に関する部分と真の平均に関するランダム性に関する部分に分解できます。これらを組み合わせてすべての不確実性をカバーすると（そしてモデル/正規性が正しいと仮定すると）、間隔が広すぎる傾向がありますが（狭すぎることもあります）、新しいランダムに選択されるポイントの確率予測間隔に入るのは、正確に95％ではありません。これはシミュレーションで確認できます。既知のすべてのパラメーターを持つ既知の回帰モデルから始めます。この関係からサンプル（多数のx値）を選択し、回帰に適合させ、予測間隔を計算します。ここで、真のモデルから多数の新しいデータポイントを再度生成し、それらを予測間隔と比較します。次のRコードを使用して、これを数回行いました。

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

上記のコードを数回実行しましたが（約10回ですが、注意してカウントしませんでした）、ほとんどの場合、間隔にある新しい値の割合は96％から98％の範囲でした。推定標準偏差が非常に低く、比率が93％から94％の範囲にあるケースが1つありましたが、残りのすべては95％を超えていました。したがって、「約95％」への変更を伴う声明1に満足します（すべての仮定が真である、またはおよそカバーされるのに十分近いと仮定します）。

同様に、ステートメント2には「おおよそ」または同様のものが必要です。これは、不確実性をカバーするために、平均で95％以上をキャプチャしているためです。

— グレッグ・スノー
ソース

2番目の方が優れています。最初は、他のどの情報が知られているかに依存します。

ランダムな例を使用すると、「間隔の95％（信頼度95％）に[変数の挿入]の真の平均が含まれること」は事実です。

一方、結果が明らかに直感に反する場合、（1）を主張することはできません。

たとえば、「95％の信頼度での有意性検定は、身長と体重が負の相関関係にあることを示しています」。まあそれは明らかに間違っており、「95％の確率で真である」と言うことはできません。実際、事前の知識を考慮すると、それが真実である可能性は非常にわずかです。ただし、「そのようなテストの95％が正しい結果をもたらした」と言うのは妥当です。

この答えは、予測区間ではなく信頼区間を議論しているようです。

— whuber

@whuber同じ原則が適用されます。基本的に、特定の変数（「予測」変数）の信頼区間を扱っています。

固定値（パラメーターなど）とランダム変数の値には重要な違いがあります。さらに、現在の質問の核心はこの区別に到達しています。その（「将来の」）ランダムな結果の確率については何が言えるでしょうか？ したがって、この質問を単に自信の意味に関するものとして扱うのは不適切であり、誤解を招く可能性があります。

— whuber

@whuber投稿のステートメント（2）は、まだステートメント（1）を意味していません。私の例のように、明らかな直観/背景知識に反する予測は、将来の結果がPIに落ちる可能性が95％であることを意味しません。95％の時間でプロセスが将来の結果を含むPIを提供することは事実です。ただし、これが発生したかどうかを検出できる場合があります。

あなたは正しいですが、私があなたのコメントを正しく読んでいるなら、私はそれがポイントを逃していると思う。問題は、（設計上）PIが将来価値をカバーする可能性が95％しかないことや、追加のデータ（または直感）がより多くの情報を提供できるという事実ではありません。私たちの前の問題は、PIが将来の値（回帰値に基づく）の条件付き確率の観点から解釈できるかどうかに関するものです。OPが指摘しているように、それは確かにBayes PIの解釈ですが、頻繁なPIには無効です。

— whuber