残差は「予測マイナス実際」または「実際マイナス予測」です


46

「予測値から実際の値を引いたもの」または「実際の値から予測した値を引いたもの」としてさまざまに定義された「残差」を見てきました。説明のために、両方の式が広く使用されていることを示すために、次のWeb検索を比較します。

実際には、個々の残差の符号は通常重要ではないので、違いはほとんどありません(たとえば、それらが二乗されているか、絶対値が取られている場合)。ただし、私の質問は次のとおりです。これら2つのバージョンの1つ(最初に予測対実際の最初)は「標準」と見なされますか 私は自分の使用法に一貫性がありたいので、確立された従来の標準があれば、それに従うことを望みます。ただし、標準が存在しない場合、標準の慣例がないことが納得できるように示されれば、それを回答として受け入れます。


8
残差はモデルの誤差に関連しているため、y=a+bx+ϵと書くと、yが「固定部分」と「ランダム部分」であると考えるため、残差はyマイナスa+bx
AdamO

予測マイナス実際値または実際のマイナス予測値予測誤差(またはそのマイナス)になりますが、近似マイナス実際値または実際のマイナスフィッティングは残差(またはそのマイナス値)になります。Stephen Kolassaの回答は、理由の予測エラーに言及しています。
リチャードハーディ

(予測された実際の)作業がより便利であると思います。多くの場合、いくつかのパラメーターに関して残差の導関数を計算する必要があります。(実際に予測)を使用すると、マイナス記号が表示され、残りの計算全体を追跡する必要があるため、より多くの括弧を使用する必要があり、二重否定が発生した場合は必ずキャンセルするようにします。私の経験では、より多くのエラーにこのリード
ニック・アルジェ

回答:


42

残差は常に実際のマイナス予測です。モデルがある: 従って、残差がεの誤差の推定値である、εε = Y - Y

y=f(x;β)+ε
ε^ε
ε^=yy^y^=f(x;β^)

@whuberには、記号が数学的に本当に重要でないことに同意します。ただし、コンベンションを開催するのは良いことです。そして、現在の慣習は私の答えのとおりです。

OPはこの主題に関する私の権威に挑戦したので、いくつかの参照を追加しています。


3
質問を編集して、残差が常に実際のマイナス予測ではないことを明確に示すサンプルWeb検索を追加しました。代替もかなり頻繁に発生するため、混乱が生じます。私の質問は、正しい表記法の正式な文書があるかどうかです。残念ながら、あなたの答えはそれを提供しません。
Tripartio

5
私の読書で観察された予測されたのは、統計における現代の大多数の慣習です。ただし、ガウスが反対の規則を使用したことは注目に値します。自然二乗残差は、最小二乗、二乗和、または平均二乗のコンテキストで同じです。個々の残差を調べるための19世紀以前の前例がありますが、残余を気にかけ、特にプロットすることは、1960年代初期まで広く普及し始めませんでした。つまり、残差の兆候が見えている場合にのみ、それが何であるかを気にする必要があります。
ニックコックス

18
+1。残差の概念は、「残り;残されたもの」に由来します。つまり、予測が考慮された後にデータに残るものです。これは、これらの数量を「残差」と名付けた人は誰でも「データ値から適合値を差し引いた」という定義を念頭に置いていたことを示唆しています。
whuber

3
@NickCox、引用として回答としてコメントを形式化してください。私の質問は統計に関するものではなく、科学的な慣習に関するものではないので、コメントで示されているような歴史的および使用上の洞察は、私が探している答えの一種です。
Tripartio

6
長い残余という言葉は、Salsburgよりも前のものです。彼の本は、時には面白くもあるが、権威あるものとはほど遠いものだと言わざるを得ない。興味がある場合は、Biometrics jstor.org/stable/3068274で
Nick Cox

22

私はちょうど出くわした説得力のある理由であることを1つの答えを正しいもの。

yx

![図1:最小二乗線の散布図。

青い曲線は、通常の最小二乗近似です。近似値をプロットします。

yy^

図2:残差対予測値。

これは、シフトされた条件付き分布が予測値によってどのように変化するかを示す標準の診断プロットです。幾何学的には、前の散布図を「傾ける」とほぼ同じです。

y^y,

図3:残差が否定された前のプロット

これは前の図と同じ量を示していますが、残差は適合からデータを差し引くことで計算されています-これはもちろん前の残差を否定することと同じです。

上記の両方の図は、あらゆる点で数学的に同等です-青い水平線を横切って点を反転するだけで一方が他方に変換されますが、一方は元のプロットとはるかに直接的な視覚的関係を持ちます。

その結果、残差の分布特性を元のデータの特性に関連付けることが目的である場合(ほとんどの場合はそうです)、応答をシフトおよびリバースするのではなく、単にシフトする方が適切です。

yy^.


1
私はここで歪度について特別なことに従うとは思わない-元のプロットに一致する残差に関するあなたの議論はすぐにそれと独立していませんか?
MichaelChirico

2
@マイケルあなたはまったく正しいです。ただし、分布の形状とその負の形状を明確に区別するため、ポイントを示すためにスキューネスは役立ちます。
whuber

10

Green&Tashman(2008、Foresight)は、予測エラーの類似の質問に関する小規模な調査について報告しています。それらによって報告されるように、私はどちらかの規約の議論を要約します:

「実際の予測」の引数

  1. y=y^+ϵ
  2. 地震学の少なくとも1人の回答者は、これは地震波の移動時間をモデル化するための慣習でもあると書いています。「モデルによって予測された時間よりも前に実際の地震波が到着した場合、負の移動時間の残差(誤差)があります。」(sic

  3. y^

  4. +

「予測された実際の」引数

  1. y=y^ϵ

    関連して、正のバイアスが正の期待誤差として定義されている場合、この規則では予測が平均的に高すぎることを意味します。

    そして、これはこの規則のために与えられたほとんど唯一の議論です。繰り返しになりますが、他の慣習が誤解を招く可能性があること(肯定的なエラー=予測が低すぎる)は、強力なものです。

最後に、私はあなたがあなたの残余を伝える必要がある人に帰着すると主張します。そして、この議論には確かに2つの側面があることを考えると、あなたが従う慣習を明示的に記すことは理にかなっています。


7
x

3
@NickCox:抽象的には、あなたは正しい。しかし、多くの人を連れて、「今日の気温の天気予報には大きな正の誤差がありました。予報は(A)高すぎる、または(B)低すぎると思いますか?」圧倒的多数が(A)または(B)のどちらを選ぶかを予測できると思います。
S. Kolassa -復活モニカ

6
はい-としてフレーズその質問した場合と、「あなたは温度が(A)であったと考えています高いまたは(B)下の予想よりも、」あなたは非常によく、正確に得るかもしれない反対の答えを!「正のエラー」に言及することは、「エラーとは何か」という問題を提起するだけであり、完全に循環的な方法で、元の質問に戻ります。
whuber

2
@whuberは、質問のかなり不自然な言い回しです。「観察」が「固定」されていることを考えると、モデルとそのモデルの関係は、他の方法よりも自然に思えます。「速度制限が自分の速度を下回っていた」というよりは、速すぎるためにスピード違反切符を受け取ります。自然言語の議論は、確かに専門用語/言語に限定的に適用されます/
mbrig

2
@whuber私が言っているのは、質問を表現する1つの方法が明らかに自然であることです(少なくとも英語では)。
mbrig

4

異なる用語は異なる規則を示唆しています。「残差」という用語は、すべての説明変数が考慮された後、つまり実際に予測された後に残ったものであることを意味します。「予測エラー」は、予測が実際の予測からどれだけ逸脱しているかを意味します。

X=x1,x2...yy^

yy^Xyy^y^yy^y^yy^ye=y^y

y^XXxf(X)f(X)+error()y^Xy2xg

y^=2xg
y=y^+error

y^yy^X

2xgy=y^+error

X

y^=f(X)
y=y^+g(?)
g=yy^


4

@Aksakalによる答えは完全に正しいですが、私(および生徒)に役立つと思われる要素を1つ追加するだけです。

モットー:統計は「完璧」です。いつものように、私はいつでも完璧な予測を提供することができます(目前に眉毛が上がっているのは知っています...

yiy^i

yiy^i
ϵi
yi=y^i+ϵi
これで、「完全な」予測が得られました。「最終」値は、観測値と一致します。

ϵi


2
y^iyi

6
なぜ「予測値に追加するのがベスト」なのですか?「予測と一致するようにデータムを調整する必要がある量を確認してください」ではないのはなぜですか。どちらのアプローチも、他のアプローチよりも明白で、意味のある、または「直感的」であるという主張はないようです。
whuber

2
@whuberの1つの項目は「実際の」(観察された、具体的な)であり、もう1つの項目は(仮想の)構造です。体重に基づいて高さをモデリングする場合、実際の/観察された高さを何らかの(想像上の)予測値と一致させるために、誰かを3インチ「収縮」させるのが妥当でしょうか?
グレッグH

2
はい、それはデータについての一般的な考え方です。私は、人々がこの質問をどのように認識し、「最良」の意味を理解するかについてのあなたの仮定が投機的で主観的である可能性を指摘しようとしています。
whuber

フェアポイント...簡単なコメントで更新されます
Gregg H

2

最小二乗線形回帰の特定のケースを使用します。モデルをと、@ Aksakalが指摘しているように、自然になるため、ます。代わりにモデルとしてを使用する場合(これは確かに自由です)、を取得します この時点で、本当にために曖昧な好みは別として、他の上の1つを好むする理由はありません以上。Y=Xβ+εε=YXβε^=YY^Y=Xβεε=XβYε^=Y^Y11

しかし、場合、介して残差を取得します。ここで、は、設計行列列空間に直交する空間に射影するべき等行列です。代わりに使用した場合、ます。ただし、自体は等ではありません。したがって、実際にはは射影行列の負、つまりです。したがって、これはを使用して導入されたネガティブを取り消すものと見なします。そのため、節約のために、単にε^=YY^(IPX)YIPXXY=Xβεε^=(PXI)YPXIP X - I I - P X Y = X β - ε Y = X β + ε Y - Y(PXI)2=PX22PX+I=(PXI)PXIIPXY=XβεY=Xβ+εは、を残差として返します。YY^

他の場所で述べたように、我々が使用している場合、それは何の区切りのようではありません、私たちは、私はちょうど使用に良い十分な理由だと思います。この二重の負の状況で終わる。Y - YY^YYY^


+eey=β0+β1xβ0β1e

Y=Xβ+ε
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.