@whuberは3つの良い答えを示しましたが、おそらく私はまだ価値のある何かを書くことができます。私の理解では、あなたの明確な質問は次のとおりです。
私のフィットモデル所与のY iは = mは、 xはI + By^i=m^xi+b^ (通知私は'帽子'を追加)、および私の残差が正規分布していると仮定すると、、Iはまだとしてその予測することができるが観測されない応答、Y 、N 、E 、W、既知の予測値と、X N E W、間隔内に入る(Y - σ E、Y +のσN(0,σ^2e)ynewxnew、確率68%?(y^−σe,y^+σe)
直観的には、答えは「はい」であるように思われますが、本当の答えは多分です。これは、パラメーター(つまり、およびσ)が既知でエラーがない場合に当てはまります。これらのパラメーターを推定したので、不確実性を考慮する必要があります。 m,b,σ
まず、残差の標準偏差について考えてみましょう。これはデータから推定されるため、推定に多少の誤差が生じる可能性があります。その結果、予測区間を形成するために使用すべき分布は、正規分布ではなくになるはずです。ただし、tは急速に正常値に収束するため、実際には問題になる可能性は低くなります。 tdf errort
y^new±t(1−α/2, df error)sy^new±z(1−α/2)sm^b^serror
s2predictions(new)=s2error+Var(m^xnew+b^)
xs2x axis. The standard deviation of your predictions can be more conveniently estimated with the following formula:
spredictions(new)=s2error(1+1N+(xnew−x¯)2∑(xi−x¯)2)−−−−−−−−−−−−−−−−−−−−−−−−√
As an interesting side note, we can infer a few facts about prediction intervals from this equation. First, prediction intervals will be narrower the more data we had when we built the prediction model (this is because there's less uncertainty in
m^ &
b^). Second, predictions will be most precise if they are made at the mean of the
x values you used to develop your model, as the numerator for the third term will be
0. The reason is that under normal circumstances, there is no uncertainty about the estimated slope at the mean of
x, only some uncertainty about the true vertical position of the regression line. Thus, some lessons to be learned for building prediction models are: that more data is helpful, not with finding 'significance', but with improving the precision of future predictions; and that you should center your data collection efforts on the interval where you will need to be making predictions in the future (to minimize that numerator), but spread the observations as widely from that center as you can (to maximize that denominator).
Having calculated the correct value in this manner, we can then use it with the appropriate t distribution as noted above.