平均二乗誤差と残差平方和


31

以下のウィキペディアの定義を見てください:

それは私に見える

MSE=1NRSS=1N(fiyi)2

ここで、はサンプル数、は推定値です。Nfiyi

ただし、ウィキペディアの記事のいずれもこの関係について言及していません。どうして?何か不足していますか?


6
私はこれが役に立たず、敵意のあるように見えることを知っていますが、彼らはそれが明白であるのでそれについて言及しません。また、ここで少し注意してください。通常、実際の経験的な作業でMSEに遭遇すると、を除算するのではなく、をで除算しますは回帰モデルの右辺変数の数(切片を含む)です。RSSNRSSNKK
ビル

10
@Bill:まあ、それはまさにウィキペディアにリンクされている記事に通じる関係の種類です。自由度に関するあなたの指摘は、それがそれほど明白ではなく、間違いなく言及する価値があることを示しています。
bluenote10

2
@ビル:同意しますが、自明性は非常に主観的です。統計/機械学習のグレーの領域には表記法が散りばめられているため、明示的にするのが適切です。
rnoodle

回答:


30

実際には、ウィキペディアの平均二乗誤差の回帰セクションで言及されています

回帰分析では、平均2乗誤差という用語は、誤差分散の不偏推定値、つまり自由度の数で除算した残差平方和を指すために使用されることがあります。

統計情報のエラーと残差ここ では、平均二乗誤差という表現は、場合によっては意味が異なることがあるため、時々注意が必要であると述べています。


4

ただし、Sum of Squared Erros(SSE)とResidue Sum of Squares(RSS)が時々交換可能に使用されるため、読者を混乱させることに注意してください。たとえば、線形回帰の詳細については、このURL(https://365datascience.com/sum-squares/)を確認してください。

統計的な観点から厳密に言えば、エラーと残留はまったく異なる概念です。エラーは主に、実際に観測されたサンプル値と予測値の違いを指し、主にルート平均二乗誤差(RMSE)や平均絶対誤差(MAE)などの統計メトリックで使用されます。対照的に、残差は、従属変数と線形回帰からの推定値との差のみを指します。


0

MSEがRMSEの尺度であると考える場合、ここでこれが正しいとは思わない。たとえば、予測と観測に関する一連のサンプリングデータがあり、線形回帰を実行しようとしています:観測(O)= a + b X予測(P)。この場合、MSEはOとPの差の二乗和をサンプルサイズNで割ったものです。

ただし、線形回帰の実行方法を測定する場合は、平均二乗残差(MSR)を計算する必要があります。同じ場合、最初に実際の観測値と線形回帰から導出された予測観測値との差の二乗和に対応する残差二乗和(RSS)を計算します。次に、RSSをN-2で割って、 MSRを取得します。

簡単に言えば、この例では、RSSコンポーネントはMSEの計算に使用されるコンポーネントと同じではないため、RSS / Nを使用してMSEを推定することはできません。


1
この答えがわかりません。
マイケルR.チャーニック

上記のサンプリングされた予測値と観測されたデータ値の例に基づいて、線形回帰が確立されていることを確認してください。この場合、MSE =Σ(OP)^ 2 / n、ここでΣ(OP)^ 2は二乗和エロス(SSE)の合計、nはサンプルサイズです。ただし、二乗平均残差(MSR)=Σ(OO´)^ 2 / n-2、ここでΣ(OO´)^ 2は残差平方和(RSS)およびO` = a + b X P. MSRおよびRSSは、主に線形回帰の全体的な有意性をテストするために使用されます。また、SSE =系統的エロス(SE)+ RSSで、SE =Σ(PO´)^ 2
Dr.CYY
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.