信頼区間と予測区間の違い


80

線形回帰での予測区間について、あなたはまだ使用E [ Yを| X ] = ^ β 0 + β 1 xが間隔を生成します。また、これを使用してE [ Y | x 0 ]。2つの違いは何ですか?E^[Y|バツ]=β0^+β^1バツE[Y|バツ0]


7
"インターバルを生成しません"。E^[Y|バツ]=β0^+β^1バツ
Glen_b

上記のいずれの回答でも、2つの方法が異なる理由はわかりません。回帰結果は通常、パラメトリックスチューデントのt分布パラメーターに基づいて推定され、特に回帰、特にデータ回帰モデルとの一致が不十分なため、スチューデント化されていない残差が生じます。対応する予想測定分位数よりも大きいデータ分散のパラメトリック測定。私は外れ値、長い尾を持つ残差が表示された場合、およびU:親指のルールは私が有用であることが分かってきた
カール・

回答:


75

あなたの質問はまったく正しくありません。あなたが言うように、信頼区間は範囲を与えます。予測間隔は、y自体の範囲を提供します。当然のことながら、私たちの最良の推測yがあるE [ Y | X ]、その間隔は両方とも同じ値を中心とされX βE[yバツ]yyE[yバツ]バツβ^

@Gregが言うように、標準誤差は異なるものになりますの期待値は、y自体を推定するよりも正確に推測します。yを推定するには、真の誤差項から生じる分散を含める必要があります。E[yバツ]yy

違いを説明するために、係数の完全な推定値を取得できると想像してください。そうすれば、E [ y x ]の推定は完全になります。しかし、考慮すべき真のエラー用語があるため、y自体が何であるかはまだわかりません。E [ y x ]を正確に推定するため、信頼の「間隔」は単なるポイントになりますが、真の誤差項を考慮するため、予測間隔は広くなります。βE[yバツ]yE[yバツ]

したがって、予測区間は信頼区間よりも広くなります。


40

予測区間と信頼区間の差が標準誤差です。

平均の信頼区間の標準誤差では、サンプリングによる不確実性が考慮されます。サンプルから計算したラインは、母集団全体があった場合に計算されるラインとは異なります。標準誤差はこの不確実性を考慮しています。

個々の観測の予測区間の標準誤差は、上記のようなサンプリングに起因する不確実性を考慮しますが、予測平均周辺の個体の変動も考慮します。予測区間の標準誤差は信頼区間よりも広くなるため、予測区間は信頼区間よりも広くなります。


39

次の説明が参考になりました。

信頼区間は、平均をどれだけ適切に決定したかを示します。データが実際にガウス分布からランダムにサンプリングされると仮定します。これを何度も繰り返し、各サンプルの平均の信頼区間を計算すると、それらの区間の約95%に母平均の真の値が含まれることになります。重要な点は、信頼区間が真の母集団パラメーターの可能性のある位置を示すことです。

予測間隔は、サンプリングされた次のデータポイントがどこで見られるかを示します。データが実際にガウス分布からランダムにサンプリングされると仮定します。データのサンプルを収集し、予測間隔を計算します。次に、母集団からもう1つの値をサンプリングします。これを何度も行うと、サンプルの95%で次の値がその予測区間内にあることが予想されます。重要な点は、予測区間が母集団を決定する際の不確実性ではなく、値の分布について通知することです平均。

予測間隔は、母平均の値を知る際の不確実性とデータのばらつきの両方を考慮しなければなりません。したがって、予測区間は常に信頼区間よりも広くなります。

出典:http : //www.graphpad.com/support/faqid/1506/


ここで「データ散布」とはどういう意味ですか?
tel

2
@tel:明らかに差異が
vonjd

36

1つは将来の観測の予測であり、もう1つは予測平均応答です。違いとそれがどこから来たのか、そしてこの違いが自信よりも予測のためのより広い間隔でどのように現れるのかを説明するために、より詳細な答えを与えます。

バツ0

  1. バツ0バツ0

    y=バツ0Tβ+ϵ
    Eϵ=0
    y^=バツ0Tβ^
    β^ϵ
  2. バツ0バツ0

    y^=バツ0Tβ^
    β^

varバツ0Tβ^=バツ0TバツTバツ1バツ0σ2

バツ0Tβ^+ϵϵσ2β^

  1. バツ0

    y^0±tnpα/2σ^バツ0TバツTバツ1バツ0+1
  2. バツ0

    y^0±tnpα/2σ^バツ0TバツTバツ1バツ0

tnpα/2npα/2

これにより、予測間隔が常に広い理由と、2つの間隔の根本的な違いが少し明確になることを願っています。この例は、R、Secを使用したFaraway、Linear Modelsを改造したものです。4.1。


2
明確で思慮深い応答によって古いスレッドが大幅に改善されるのを見るのは素晴らしいことです。当サイトへようこそ!
whuberの

これは、... x0 + 1 / n +1(予測区間(1)の場合)、... x0 + 1 / n(信頼区間(2)の場合)_ www2.stat.duke.edu /~tjl13/s101/slides/unit6lec3H.pdfの real-statistics.com/regression/...
user48956

12

簡潔な答え:

予測区間はまだ観察する確率変数(予測)に関連付けられた間隔です。

信頼区間は、パラメータに関連付けられた間隔で、frequentist概念です。

完全な答えを確認してくださいここでロブHyndman、R.における予測パッケージの作成者から


3

この回答は、以前の回答を完全に理解できなかった読者向けです。特定の例を説明しましょう。身長、性別(男性、女性)、食事(標準、低炭水化物、ベジタリアン)から人々の体重を予測しようとするとします。現在、地球には80億人以上の人々がいます。もちろん、同じ身長と他の2つのパラメーターを持ち、体重が異なる何千人もの人々を見つけることができます。それらのいくつかは肥満を持ち、他は飢starに苦しむかもしれないので、彼らの体重は大きく異なります。それらの人々のほとんどは、中間のどこかにいるでしょう。

1つのタスクは、3つの説明変数すべてと同じ値を持つすべての人々の平均体重を予測することです。ここでは、信頼区間を使用します。別の問題は、特定の人の体重を予測することです。そして、私たちはその個人の生活環境を知りません。ここでは、予測間隔を使用する必要があります。同じ点を中心にしていますが、信頼区間よりもはるかに広くなければなりません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.