第一に、単語確率の使用に関しては、ランダムな断片がまだ発生していない場所を予測する際に、頻度の高い人は単語確率を使用しても問題はありません。信頼区間の単語確率は好きではありません。なぜなら、真のパラメーターは変化せず(未知の値ではあるが固定値であると仮定しているため)、既に収集したデータに基づいているため、区間が固定されているからです。たとえば、成人男性のランダムサンプルからデータが得られ、xが身長、yが体重であり、一般回帰モデルに適合している場合、信頼区間について話すときに確率を使用しません。しかし、65インチのすべての男性からランダムに選ばれた65インチの男性が一定の間隔内に体重を持っている確率について説明したい場合は、
ですから、ボーナスの質問に対する答えは「はい」です。十分な情報がわかっていれば、間隔内でy値が表示される確率を計算できます(または、目的の確率で間隔を見つけます)。
「1」というラベルが付いたステートメントの場合 間隔や確率について話すときに「おおよそ」という言葉を使っても大丈夫だと思います。ボーナスの質問で述べたように、不確実性を、予測の中心に関する部分と真の平均に関するランダム性に関する部分に分解できます。これらを組み合わせてすべての不確実性をカバーすると(そしてモデル/正規性が正しいと仮定すると)、間隔が広すぎる傾向がありますが(狭すぎることもあります)、新しいランダムに選択されるポイントの確率予測間隔に入るのは、正確に95%ではありません。これはシミュレーションで確認できます。既知のすべてのパラメーターを持つ既知の回帰モデルから始めます。この関係からサンプル(多数のx値)を選択し、回帰に適合させ、予測間隔を計算します。ここで、真のモデルから多数の新しいデータポイントを再度生成し、それらを予測間隔と比較します。次のRコードを使用して、これを数回行いました。
x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)
fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')
sapply( 1:25, function(x){
y <- rnorm(10000, 5+3*x, 5)
mean( tmp[x,2] <= y & y <= tmp[x,3] )
})
上記のコードを数回実行しましたが(約10回ですが、注意してカウントしませんでした)、ほとんどの場合、間隔にある新しい値の割合は96%から98%の範囲でした。推定標準偏差が非常に低く、比率が93%から94%の範囲にあるケースが1つありましたが、残りのすべては95%を超えていました。したがって、「約95%」への変更を伴う声明1に満足します(すべての仮定が真である、またはおよそカバーされるのに十分近いと仮定します)。
同様に、ステートメント2には「おおよそ」または同様のものが必要です。これは、不確実性をカバーするために、平均で95%以上をキャプチャしているためです。