回帰を使用してデータ範囲外に投影しますか?大丈夫?時々大丈夫?


9

データ範囲外に投影するために回帰を使用することについてどう思いますか?線形またはべき乗モデルの形状に従うことが確かな場合、モデルはデータ範囲を超えて有用ではないでしょうか?たとえば、私は価格によって駆動されるボリュームを持っています。私は信じているデータ範囲外の価格を予測できるはずです。あなたの考え?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92

1
yx

3
x1,,xnnx(xx¯)2in(xix¯)2

ベン私は同意する傾向がありますが、観測されていないXのyを予測することは重要ではありませんか?さもなければ、なぜ退行すらしますか?たぶん、観測されたデータ範囲から自分が離れることができる範囲に制限を設定することが責任があるかもしれません。確かに10%は安全でしょう。
Johnson Jason

このトピックに関する私のお気に入りの基準はbmj.com/content/317/7155/409です。
Carlo Lazzaro、2015年

@ Ben、@ Johnson-たぶんごまかし。回帰には別の用途があります。予測ではなく説明に使用できます。特に社会科学では、これは回帰の主要な使用法だと思います。(変数)効果の結果B、回帰を実行し、Aの係数の95%信頼区間に0が含まれていないことを確認し、フォームAの関係はBを引き起こします。ちなみに、これは私がやったことではありません!
meh

回答:


13

X

H=X(XTX)1X

H0<Hii<1, i=1,,nHii

Hnew,new=xnewT(XTX)1xnew

Hnew,new

どのソフトウェアを使用しているかはわかりませんが、ほとんどすべてのコマンドで適切なコマンドでハットマトリックスが返されます。だから私はあなたが決心する前に一見することを勧めます。


よくやったJohnK、これはとても役に立ちます。参考までに、Excel回帰を使用しています。
Johnson Jason

9

予測誤差は、平均からの距離とともに2次的に増加します。回帰方程式と結果を使用すると、観測されたデータの範囲でエラーのサイズを測定でき、モデルはその同じ範囲でのみ適切です。

その範囲外では多くのことが起こり得ます。まず、予測エラーの増加により、予測はますます悪化します。

第二に、モデルが完全に壊れる可能性があります。これを確認する最も簡単な方法は、価格と時間を関連付けるモデルを投影することです。負の時間を予測することはできません。

第3に、線形関係が不適切な場合があります。あなたの例では、ほぼ確実に規模の経済があり、観測値の範囲のはるかに外側を予測しようとすると非常に顕著になります。

この同じ効果のユーモラスな例は、マークトウェイン作品の 1つにあります。彼はミシシッピ川の長さを時間の経過とともにモデル化しようとしました-毎年風が強く、一部の侵食により毎年短くなっています曲がり角と人工のショートカット---と「予測」により、カイロ、イリノイ、ニューオーリンズの間の距離は約1マイルと4分の3に縮むことになります)。

最後に、複数の予測変数がある場合、観測値の範囲は非常に複雑になる可能性があることに注意してください。(予測子間の相関関係のため、各予測子の最大値と最小値によって定義されたボックスを単に取ることができないことがよくあります。)


1
(+1)モデルが適切であると言うのは、観測されたデータの範囲にわたってのみですが、少し強いです-それは、あなたが説明する問題が、あなたがそこから離れるほど、ますます心配になるということです。
Scortchi-モニカの回復

では、観測されたデータ範囲から安全な距離を冒険するための作業はありますか?標準偏差が1未満ですか?
ジョンソンジェイソン

1
@Scortchi。ポイントを取る。ほとんどの場合、モデルの劣化は段階的です。しかし、時折そこにあるハード境界は、それらが原因の悲しみに起こっているを超えて行くことにしよう。
user3697176

1
@JohnsonJason:経験則を探す意味がありません。モデルを外挿できると仮定すると、予測区間を簡単に計算できます。外挿を信頼できる程度は、主題の知識によって異なります。許容できるものは、場合によって異なります。
Scortchi-モニカを回復

1
優れたポイント(+1)。しかし、負の時間の価格を予測するのに論理的な問題はありません。実際の問題は、特定の時間(通常、過去には実際には)の負の価格を予測するかどうかです。多くの場合、これは、外挿が直線(または曲線)を伸ばしすぎているため、モデルが質的に間違っていることを意味します。たとえば、対数リンク関数は常に正の予測を意味します。
Nick Cox

4

データがない領域については、データ主導の決定を下すことはできません。話の終わり。データは、データが収集される範囲の線形形状を非常によくサポートできますが、この形状が引き続き範囲外で線形であると考えるデータ主導の理由はありません。太陽の下でどんな形でもいいです!

線形形状がデータ範囲外で継続すると想定することもできますが、これは収集したデータでサポートされていない主観的な仮定です。対象の専門家に相談して、対象の専門知識に基づいて、この仮定がどれほど安全であるかを確認することをお勧めします。


2
では、観測されていないXのYを予測できない場合に実際に回帰を行う意味は何
Johnson Jason

2
ポイントは、範囲内でも予測できることです。範囲外で予測することはお勧めできません。おそらく、ほとんどの新しいデータポイントは範囲内にあるため、モデルはほとんどの場合に引き続き有用です
Ryan Zotti
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.