非線形回帰の信頼区間と予測区間の形状


13

非線形回帰の信頼帯と予測帯は、回帰線の周りで対称的であると想定されていますか?つまり、線形回帰のバンドの場合のように、砂時計の形をとっていません。何故ですか?

問題のモデルは次のとおりです 図は次のとおりです。

Fバツ=AD1+バツCB+D

http://i57.tinypic.com/2q099ok.jpg

そして、これが方程式です:

ここに画像の説明を入力してください


あなたの質問は明確ではありません、なぜならあなたは彼らが最初の文で「対称的であると思われる」かどうかを尋ねることから、それらが文2にないことを暗示することと(おそらく)文3にない理由を尋ねることにシフトするからですこのより一貫した/明確な?
GUNG -復活モニカ

この方法で質問してみましょう。回帰が非線形のとき、なぜ信頼ラインと予測バンドは回帰線の周りで対称的ですが、線形のとき砂時計の形になりますか?
サージ14

00

あなたが正しいです。バンドは負の領域にまたがります。ただし、バンド自体の値ではなく、バンドの制限に対応するEC50値に興味があります。このようにバンドを構築する代替手段はありますか?
サージ14

はい、しかし私が親しくしたように彼らは複雑になることができます。一般化最小二乗法と時系列法は、シリアル相関に対処できます。従属変数の非線形変換は、非加法的エラーを処理する1つのツールです。より洗練されたツールは、一般化線形モデルです。選択は、従属変数の性質に一部依存します。ところで、「EC50値」(用量反応関係をモデル化しているように聞こえます)の意味はわかりませんが、図のバンドから計算されたものは疑わしいでしょう。
whuber

回答:


8

信頼帯と予測帯は、通常、端付近で広くなると予想されるはずです-そして、通常の回帰で常にそうなるのと同じ理由で。一般に、パラメータの不確実性は、中央よりも両端近くの間隔が広くなる

これは、与えられたモデルからのデータをシミュレートするか、パラメータベクトルのサンプリング分布からシミュレートすることにより、十分に簡単にシミュレーションで確認できます。

非線形回帰のために行われる通常の(ほぼ正しい)計算には、局所線形近似(これはHarveyの答えに記載されています)が含まれますが、それらがなくても、何が起こっているかの概念を得ることができます。

ただし、実際の計算を行うのは簡単ではなく、プログラムがその効果を無視する計算のショートカットをとることがあります。一部のデータと一部のモデルでは、効果が比較的小さく、見にくいこともあります。実際、予測間隔では、特に大きな分散で多くのデータがある場合、通常の線形回帰では曲線を見るのが難しい場合があります-ほぼ直線に見えることがあり、直線性からの逸脱を比較的簡単に見分けることができます。

以下は、平均の信頼区間だけで見るのがどれほど難しいかの例です(相対的な変動が非常に少ないため、予測区間を見るのははるかに難しくなります)。いくつかのデータと非線形最小二乗適合、母平均の信頼区間(この場合、真のモデルを知っているのでサンプリング分布から生成されますが、漸近近似またはブートストラップによって非常に類似したことができます):

ここに画像の説明を入力してください

紫色の境界は、青色の予測とほぼ平行に見えますが、そうではありません。これらの平均予測のサンプリング分布の標準誤差は次のとおりです。

ここに画像の説明を入力してください

これは明らかに一定ではありません。


編集:

投稿した「sp」式は、線形回帰の予測区間から直接来ています!


また、中心から遠ざかるにつれてパラメータの不確実性が増加すると、非線形回帰の場合でも端で帯域が広がるはずですが、それはそれほど明白ではないということですか?または、非線形回帰の場合にこの拡大が起こらない理論的な理由はありますか?私のバンドは確かに非常に対称的に見えます。
サージ14

1
その広がりは典型的なはずですが、すべての非線形モデルで同じように起こるわけではなく、すべてのモデルでそれほど明白ではありませんし、特定のプログラムでそのように計算するのは簡単ではないためです。私はあなたが見ているバンドがどのように計算されたのか分かりません-私は心の読者ではなく、あなたが名前さえ言及していないプログラムのコードを見ることができません。
-Glen_b-モニカの復帰14

@ user1505202、これは完全に答えるのが難しい質問です。あなたのモデルが何であるか(その機能的形態)を述べてもらえますか?困惑している人物の画像を添付できますか?
GUNG -復活モニカ

1
ありがとう。数値はありますが、基本的には一定です。回帰直線と各予測限界の差は、中央の18.21074から両端の18.24877までの範囲です。そのため、わずかに広がりますが、非常にわずかです。ちなみに、@ gung、予測間隔を計算する方程式を得ました。これは、次のとおりです。Y-hat +/- sp(Y-hat)
セルジュ

1
これは、大規模なサンプルを使用した予測間隔で見られる可能性のある種類の変動です。spとは何ですか?
-Glen_b-モニカーを復活14

5

非線形回帰による曲線適合の信頼度と予測バンドの計算の数学は、この相互検証ページで説明されています。これは、バンドが常に/通常対称的ではないことを示しています。

そして、これはより多くの単語とより少ない数学での説明です:

まず、G | xを定義します。これは、Xの特定の値でのパラメーターの勾配であり、パラメーターのすべての最適値を使用します。結果は、パラメーターごとに1つの要素を持つベクトルです。各パラメーターについて、dY / dPとして定義されます。Yは、Xの特定の値とすべての最適なパラメーター値が与えられた曲線のY値であり、Pはパラメーターの1つです。

G '| xは転置された勾配ベクトルなので、値の行ではなく列です。Covは共分散行列です(最後の反復からの逆ヘッセ行列)。これは、行と列の数がパラメーターの数と等しい正方行列です。行列の各項目は、2つのパラメーター間の共分散です。Covを使用して、正規化された共分散行列を参照します。各値は-1〜1 です。

計算する

c = G '| x * Cov * G | x。

結果は、Xの任意の値に対して単一の数値です。

信頼帯域と予測帯域は、最適な曲線の中心にあり、曲線の上下に等しい量だけ広がります。

信頼帯は、曲線の上下に次のように拡張されます。

= sqrt(c)* sqrt(SS / DF)* CriticalT(Confidence%、DF)

予測バンドは、曲線の上下にさらに距離を延長します。

= sqrt(c + 1)* sqrt(SS / DF)* CriticalT(Confidence%、DF)

これらの両方の式で、cの値(上記で定義)はXの値に依存するため、信頼帯域と予測帯域は曲線から一定の距離ではありません。SSの値は近似の平方和であり、DFは自由度の数(データポイントの数からパラメーターの数を引いたもの)です。CriticalTは、必要な信頼レベル(従来は95%)と自由度の数に基づいたt分布の定数です。95%の制限とかなり大きなdfの場合、この値は1.96に近くなります。DFが小さい場合、この値は高くなります。


ありがとう、ハーヴェイ。私は自分の関数のパラメーターの勾配を取得することに取り組んでいます。共分散行列がどのように取得されるかについても明確ではありませんので、あなたは実際に動作する例を知っていますか?
サージ14

GraphPad Prismデモを使用する場合、任意のモデルにデータを近似し、共分散行列([診断]タブで選択したオプションの結果)と信頼度または予測バンド(数値とグラフの両方。診断タブ)。...それが働い例として、かなり良いではありませんが、少なくとも、あなたは共分散行列を比較し、問題が前か後にあるかどうかを確認することができます
ハーヴェイMotulsky

ただし、2つのことがあります。1. PrismはCovマトリックスをくれました。ただし、これはデータセット全体に対して1つの数字にすぎません。X値ごとに1つの値を取得することになっていないのですか?2.グラフで予測バンドを取得しますが、出力に値が含まれるようにします。Prismはそうしているようには見えません。私はPrismが初めてなので、どこに行っても見たことがないかもしれませんが、試しました
サージ14

1.共分散行列は、パラメーターが絡み合っている度合いを示します。したがって、非線形回帰に当てはめるパラメーターのペアごとに1つの値があります。2. [範囲]タブを見て、Prismに、信頼帯または予測帯のプラス/マイナス値を使用して、曲線のXY座標のテーブルを作成するよう依頼します。3. Prismのテクニカルサポートについては、support @ graphpad.comにメールしてください。テクニカルサポートではなく、統計的な質問にこのフォーラムを使用してください。
ハーベイモトゥルスキー14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.