分散と平均二乗誤差の違いは何ですか?


27

これが以前に聞かれたことがないことに驚いていますが、stats.stackexchangeで質問を見つけることができません。

これは、正規分布のサンプルの分散を計算する式です。

(XX¯)2n1

これは、単純な線形回帰で観測値の二乗平均誤差を計算する式です。

(yiy^i)2n2

これらの2つの式の違いは何ですか?私が見ることができる唯一の違いは、MSEが使用することです。それが唯一の違いであるなら、なぜそれらを両方の分散として参照するのではなく、異なる自由度で?n2


ここのウィキペディアのページについてはっきりしないのは何ですか?
-TrynnaDoStat

3
分散は、観測値の平均からの偏差の二乗の平均です。対照的に、MSEは、真の値からの予測の偏差の2乗の平均です。
random_guy

3
「分散」と「平均二乗誤差」には、複数の式とさまざまな用途があります。質問を明確にするために、(a)これらの概念をどのような種類のデータに適用しているのかを説明し、(b)それらの式を与えてもらえますか?(そうすることで、あなたもあなたの質問への答えを発見するでしょう。)
whuber

6
両方の特別な場合であり、より一般的な式があります: pは得ることに推定されたパラメータの数であり、 Yがi(yiy^i)2nppy^
Glen_b -Reinstateモニカ

@Glen_bは、この一般的な式の詳細についてのリファレンスを提供していただけますか?
trianta2

回答:


28

OLSについて記述した平均二乗誤差は、何かを隠しています。

in(yiy^i)2n2=in[yi(β^0+β^xxi)]2n2

分子はyxの両方の関数を合計するため、各変数の自由度、つまりn2を失うことに注意してください。サンプル分散の式では、分子は単一変数の関数であるため、分母の自由度は1つだけ失われます。

ただし、これらは概念的に同様の数量であることに気付くのは順調です。サンプル分散は、サンプル平均の周りのデータの広がりを測定します(2乗単位)、MSEはサンプル回帰直線の周りのデータの垂直広がりを測定します(2乗垂直単位)。


@amoebaやあ!注目してくれてありがとう。この編集を促す公式のCVスタイルガイドはありますか?もしそうなら、私はそれを学びたいです。そうでない場合は、まあ、Glen_bはかつて、個人的なスタイルの好みと他のQsとAsへの編集を植民地化していることを私に正しく警告しました。どう思いますか?(そして、私はこれを同僚の口調で尋ねます:あなたの編集は何かを追加すると思います。編集値をより良く理解したいだけです。)
アレクシス

1
この提案をする公式のCVスタイルガイドはないと思いますが、LaTeXにはテキストブロックに直接レンダリングされるインライン式(1つのドル記号でマークされている)と表示された式(2つのドル記号でマークされている)があります別の行にレンダリングされます。表示される数式は異なるレイアウトを使用します。数式は元々別の行にありましたが、1つのドル記号でマークされていました。これは理にかなっていないと思います。ただし、個人的な好みについては正しいので、おwithびして気軽に戻ってください。編集した理由は、とにかくQのタイプミスを修正していたからです。
アメーバは、モニカーを復活

何切片用語が存在しない場合回帰問題で、次にMSEの自由度は、に等しく、N - 1の代わりに分散式のようにN - 2β0n1n2
develarist

1

分散式では、サンプル平均は母平均に近似しています。サンプル平均は、nデータポイントを持つ特定のサンプルに対して計算されます。サンプルの平均を知ると、n番目のデータポイントはサンプルの平均によって制約されるため、n1独立したデータポイントのみが残ります。そのため、分散式の分母の(n 1)自由度(DOF)nn1

=β0+β1×xβ0β1n2

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.