線形回帰での予測区間について、あなたはまだ使用E [ Yを| X ] = ^ β 0 + β 1 xが間隔を生成します。また、これを使用してE [ Y | x 0 ]。2つの違いは何ですか?
線形回帰での予測区間について、あなたはまだ使用E [ Yを| X ] = ^ β 0 + β 1 xが間隔を生成します。また、これを使用してE [ Y | x 0 ]。2つの違いは何ですか?
回答:
あなたの質問はまったく正しくありません。あなたが言うように、信頼区間は範囲を与えます。予測間隔は、y自体の範囲を提供します。当然のことながら、私たちの最良の推測yがあるE [ Y | X ]、その間隔は両方とも同じ値を中心とされ、X β。
@Gregが言うように、標準誤差は異なるものになりますの期待値は、y自体を推定するよりも正確に推測します。yを推定するには、真の誤差項から生じる分散を含める必要があります。
違いを説明するために、係数の完全な推定値を取得できると想像してください。そうすれば、E [ y ∣ x ]の推定は完全になります。しかし、考慮すべき真のエラー用語があるため、y自体が何であるかはまだわかりません。E [ y ∣ x ]を正確に推定するため、信頼の「間隔」は単なるポイントになりますが、真の誤差項を考慮するため、予測間隔は広くなります。
したがって、予測区間は信頼区間よりも広くなります。
次の説明が参考になりました。
信頼区間は、平均をどれだけ適切に決定したかを示します。データが実際にガウス分布からランダムにサンプリングされると仮定します。これを何度も繰り返し、各サンプルの平均の信頼区間を計算すると、それらの区間の約95%に母平均の真の値が含まれることになります。重要な点は、信頼区間が真の母集団パラメーターの可能性のある位置を示すことです。
予測間隔は、サンプリングされた次のデータポイントがどこで見られるかを示します。データが実際にガウス分布からランダムにサンプリングされると仮定します。データのサンプルを収集し、予測間隔を計算します。次に、母集団からもう1つの値をサンプリングします。これを何度も行うと、サンプルの95%で次の値がその予測区間内にあることが予想されます。重要な点は、予測区間が母集団を決定する際の不確実性ではなく、値の分布について通知することです平均。
予測間隔は、母平均の値を知る際の不確実性とデータのばらつきの両方を考慮しなければなりません。したがって、予測区間は常に信頼区間よりも広くなります。
1つは将来の観測の予測であり、もう1つは予測平均応答です。違いとそれがどこから来たのか、そしてこの違いが自信よりも予測のためのより広い間隔でどのように現れるのかを説明するために、より詳細な答えを与えます。
これにより、予測間隔が常に広い理由と、2つの間隔の根本的な違いが少し明確になることを願っています。この例は、R、Secを使用したFaraway、Linear Modelsを改造したものです。4.1。
この回答は、以前の回答を完全に理解できなかった読者向けです。特定の例を説明しましょう。身長、性別(男性、女性)、食事(標準、低炭水化物、ベジタリアン)から人々の体重を予測しようとするとします。現在、地球には80億人以上の人々がいます。もちろん、同じ身長と他の2つのパラメーターを持ち、体重が異なる何千人もの人々を見つけることができます。それらのいくつかは肥満を持ち、他は飢starに苦しむかもしれないので、彼らの体重は大きく異なります。それらの人々のほとんどは、中間のどこかにいるでしょう。
1つのタスクは、3つの説明変数すべてと同じ値を持つすべての人々の平均体重を予測することです。ここでは、信頼区間を使用します。別の問題は、特定の人の体重を予測することです。そして、私たちはその個人の生活環境を知りません。ここでは、予測間隔を使用する必要があります。同じ点を中心にしていますが、信頼区間よりもはるかに広くなければなりません。