非線形回帰の信頼帯と予測帯は、回帰線の周りで対称的であると想定されていますか?つまり、線形回帰のバンドの場合のように、砂時計の形をとっていません。何故ですか?
問題のモデルは次のとおりです
図は次のとおりです。
そして、これが方程式です:
非線形回帰の信頼帯と予測帯は、回帰線の周りで対称的であると想定されていますか?つまり、線形回帰のバンドの場合のように、砂時計の形をとっていません。何故ですか?
問題のモデルは次のとおりです
図は次のとおりです。
そして、これが方程式です:
回答:
信頼帯と予測帯は、通常、端付近で広くなると予想されるはずです-そして、通常の回帰で常にそうなるのと同じ理由で。一般に、パラメータの不確実性は、中央よりも両端近くの間隔が広くなる
これは、与えられたモデルからのデータをシミュレートするか、パラメータベクトルのサンプリング分布からシミュレートすることにより、十分に簡単にシミュレーションで確認できます。
非線形回帰のために行われる通常の(ほぼ正しい)計算には、局所線形近似(これはHarveyの答えに記載されています)が含まれますが、それらがなくても、何が起こっているかの概念を得ることができます。
ただし、実際の計算を行うのは簡単ではなく、プログラムがその効果を無視する計算のショートカットをとることがあります。一部のデータと一部のモデルでは、効果が比較的小さく、見にくいこともあります。実際、予測間隔では、特に大きな分散で多くのデータがある場合、通常の線形回帰では曲線を見るのが難しい場合があります-ほぼ直線に見えることがあり、直線性からの逸脱を比較的簡単に見分けることができます。
以下は、平均の信頼区間だけで見るのがどれほど難しいかの例です(相対的な変動が非常に少ないため、予測区間を見るのははるかに難しくなります)。いくつかのデータと非線形最小二乗適合、母平均の信頼区間(この場合、真のモデルを知っているのでサンプリング分布から生成されますが、漸近近似またはブートストラップによって非常に類似したことができます):
紫色の境界は、青色の予測とほぼ平行に見えますが、そうではありません。これらの平均予測のサンプリング分布の標準誤差は次のとおりです。
これは明らかに一定ではありません。
編集:
投稿した「sp」式は、線形回帰の予測区間から直接来ています!
Y-hat +/- sp(Y-hat)
非線形回帰による曲線適合の信頼度と予測バンドの計算の数学は、この相互検証ページで説明されています。これは、バンドが常に/通常対称的ではないことを示しています。
そして、これはより多くの単語とより少ない数学での説明です:
まず、G | xを定義します。これは、Xの特定の値でのパラメーターの勾配であり、パラメーターのすべての最適値を使用します。結果は、パラメーターごとに1つの要素を持つベクトルです。各パラメーターについて、dY / dPとして定義されます。Yは、Xの特定の値とすべての最適なパラメーター値が与えられた曲線のY値であり、Pはパラメーターの1つです。
G '| xは転置された勾配ベクトルなので、値の行ではなく列です。Covは共分散行列です(最後の反復からの逆ヘッセ行列)。これは、行と列の数がパラメーターの数と等しい正方行列です。行列の各項目は、2つのパラメーター間の共分散です。Covを使用して、正規化された共分散行列を参照します。各値は-1〜1 です。
計算する
c = G '| x * Cov * G | x。
結果は、Xの任意の値に対して単一の数値です。
信頼帯域と予測帯域は、最適な曲線の中心にあり、曲線の上下に等しい量だけ広がります。
信頼帯は、曲線の上下に次のように拡張されます。
= sqrt(c)* sqrt(SS / DF)* CriticalT(Confidence%、DF)
予測バンドは、曲線の上下にさらに距離を延長します。
= sqrt(c + 1)* sqrt(SS / DF)* CriticalT(Confidence%、DF)
これらの両方の式で、cの値(上記で定義)はXの値に依存するため、信頼帯域と予測帯域は曲線から一定の距離ではありません。SSの値は近似の平方和であり、DFは自由度の数(データポイントの数からパラメーターの数を引いたもの)です。CriticalTは、必要な信頼レベル(従来は95%)と自由度の数に基づいたt分布の定数です。95%の制限とかなり大きなdfの場合、この値は1.96に近くなります。DFが小さい場合、この値は高くなります。