なぜ二乗差がそれほど一般的に使用されるのですか？

新しい統計手法と概念を調査するとき、非常に多くの場合、差の2乗（または2乗平均誤差、または他の多数の誤字）に遭遇します。ちょうど例として、ピアソンのrは、ポイントが存在する回帰直線からの平均二乗差に基づいて決定されます。ANOVAの場合は、二乗和などを見ています。

今、私はすべてを二乗することで、外れ値のあるデータが実際にペナルティを受けることを確認しています。しかし、なぜ指数が正確に2で使用されているのですか？2.1、e、pi、その他何でもないのはなぜですか？2が使用される特別な理由はありますか、それとも単なる慣習ですか？私は説明が釣鐘曲線と関係があるかもしれないと思うが、私はかなり確信している。

normal-distribution

— スペルドーサ
ソース

最初に、指数という用語を誤用しています。これは、ではなくようなものを指します。次に、stats.stackexchange.com / questions / 118 / ...をご覧ください。このトピックについて詳しく説明しています。

a^{x}

$a^x$

x^{a}

$x^a$

— ラスレンズ

@rvlありがとう、質問からその用語を編集しました。おかげで、私はその質問をチェックします！

— スペルドーサ

それらが最終的に現れる理由の1つは、合計の分散をコンポーネントの分散（および場合によっては共分散）に関連付ける単純な式と、平方の分解に関する適切な結果にあります。上記の@rvlリンクの質問があなたの質問に答える場合は、質問を閉じることを検討してください。質問に完全に答えていない場合は、質問を編集して、知りたいことと対処していることの違いを強調してください。

— Glen_b -Reinstateモニカ

これは、二乗に関する他の（一般的な）スレッドとは異なる質問だと思います。損失関数の二乗（下部ではこの質問に答える鍵）と偏差を評価するための二乗（他のスレッドの推力）には概念的な違いがあります。

— whuber

同様の問題については、こちらとこちらをご覧ください。

— ティム

統計に対する決定論的アプローチは、詳細な説明を提供します。 平方差は、（正当に採用される可能性がある場合はいつでも）考慮する必要のある統計的手順の大幅な簡素化につながる幅広い損失関数のプロキシであると言います。

残念ながら、これが何を意味するのかを説明し、それが本当である理由を示すには、多くの設定が必要です。表記はすぐに理解不能になる可能性があります。ここで私が目指しているのは、少しの手間をかけずに主要なアイデアをスケッチすることです。完全なアカウントについては、参照を参照してください。

データ標準の豊富なモデルは、分布が自然の状態である分布のある集合要素であることが知られている（実際のベクトル値の）ランダム変数実現であると仮定します。統計的手順は、一連の決定、決定空間で値を取る関数です。 $\mathbf x$ $\mathbf X$ $F$ $\Omega$ $t$ $\mathbf x$ $D$

たとえば、予測または分類の問題では、は「トレーニングセット」と「データのテストセット」の結合で構成され、はをテストセットの予測値のセットにマッピングします。すべての可能な予測値のセットはます。 $\mathbf x$ $t$ $\mathbf x$ $D$

手順の完全な理論的な議論は無作為化された手順を収容しなければなりません。ランダム化された手順は、いくつかの確率分布（データ依存）に従って2つ以上の可能な決定から選択します。データが2つの選択肢を区別しないように見える場合、その後、明確な選択肢を決定するために「コインを裏返す」という直感的な考え方を一般化します。多くの人々は、ランダム化された手順を嫌い、そのような予測不可能な方法で決定を下すことに反対しています。 $\mathbf x$

決定理論の際立った特徴は、損失関数 使用です。 $W$ 任意の自然状態のためのと判断、損失 $F \in \Omega$ $d \in D$

W (F, d)

$W(F,d)$

自然の真の状態がである場合に決定を行うことがどの程度「悪い」かを表す数値です。小さな損失は良好、大きな損失は不良です。たとえば、仮説検定の状況では、には2つの要素 "accept"および "reject"（帰無仮説）があります。損失関数は正しい決定を行うことを強調しています。決定が正しい場合はゼロに設定され、そうでない場合は定数設定されます。（これは「損失関数：」と呼ばれます。すべての悪い決定は等しく悪く、すべての良い決定は等しく良いです。）特に、とき $d$ $F$ $D$ $w$ $0-1$ $W(F,\text{ accept})=0$ 帰無仮説とであるとき対立仮説です。 $F$ $W(F,\text{ reject})=0$ $F$

手順を使用する場合、自然の真の状態がであるときのデータ損失は、と書くことができます。これにより、損失は、分布が（未知の）によって決定される確率変数になります。 $t$ $x$ $F$ $W(F, t(x))$ $W(F, t(X))$ $F$

手続きの予想損失その呼び出されたリスクを、。期待値は真の自然状態使用するため、期待値演算子の添え字として明示的に表示されます。リスクを関数と見なし、表記法でそれを強調します。 $t$ $r_t$ $F$ $F$

r_{t} (F) = E_{F} (W (F, t (X))) .

$r_t(F) = \mathbb{E}_F(W(F, t(X))).$

より良い手順はより低いリスクを持ちます。 したがって、リスク関数の比較は、優れた統計的手順を選択するための基礎となります。すべてのリスク関数を共通の（正の）定数で再スケーリングしても比較は変わらないため、のスケールに違いはありません。好きな正の値を掛けることができます。具体的には、乗算の際にすることにより、我々は常にとることができるのために損失関数（その名前を正当化します）。 $W$ $W$ $1/w$ $w=1$ $0-1$

説明仮説検定の例、続行するには損失関数を、これらの定義は、いずれかの危険性を暗示の任意のリスク一方で「拒否」決定がされる可能性を帰無仮説でをされての代替ではあります決定が「受け入れられる」チャンス。（全てにわたる最大値帰無仮説では）試験であるサイズ対立仮説上に定義されたリスク関数の一部が試験の補数であるが、電源（ $0-1$ $F$ $F$ $F$ $\text{power}_t(F) = 1 - r_t(F)$ ）。これでは、古典的（頻度論的）仮説検定理論の全体が、特別な種類の損失のリスク関数を比較する特定の方法にどのようになるかがわかります。

ところで、これまでに紹介したものはすべて、ベイジアンパラダイムを含むすべての主流の統計と完全に互換性があります。さらに、ベイジアン分析では、に対する「事前」確率分布を導入し、これを使用してリスク関数の比較を簡素化します。潜在的に複雑な関数は、事前分布に関する期待値で置き換えることができます。したがって、すべての手順は、単一の数値によって特徴付けられます。ベイズ手順（通常は一意）は最小化します。損失関数は、計算において依然として重要な役割を果たします。 $\Omega$ $r_t$ $t$ $r_t$ $r_t$ $r_t$

損失関数の使用をめぐるいくつかの（避けられない）論争があります。 どのように選ぶのですか？仮説検定では本質的にユニークですが、他のほとんどの統計設定では多くの選択肢が可能です。それらは意思決定者の価値を反映しています。たとえば、データが医療患者の生理学的測定値であり、決定が「治療する」または「治療しない」である場合、医師はいずれかのアクションの結果を考慮し、バランスをとる必要があります。結果がどのように評価されるかは、患者自身の希望、年齢、生活の質、および他の多くのものに依存する可能性があります。損失関数の選択は複雑で、深く個人的なものです。通常、統計学者に任せるべきではありません！ $W$

私たちが知りたいことの1つは、損失が変わったときに最良の手順の選択がどのように変わるかということです。 多くの一般的で実際的な状況では、最適な手順を変更せずに一定量の変動を許容できることがわかります。これらの状況は、次の条件によって特徴付けられます。

決定空間は凸集合（多くの場合、数字の間隔）です。これは、2つの決定の間にある値も有効な決定であることを意味します。
可能な限り最良の決定が行われた場合の損失はゼロであり、そうでない場合は増加します（行われた決定と真の（ただし未知の）自然状態に対して行われる可能性のある最良の決定との矛盾を反映するため）。
損失は、決定の微分可能な関数です（少なくともローカルで最良の決定に近い）。それは仕方ジャンプしない-これは、それが連続している意味の損失はありませんが-それはまた、決定が近い最高のものにする場合、それは比較的小さな変化することを意味します。 $0-1$

これらの条件が満たされると、リスク関数の比較に伴ういくつかの合併症がなくなります。の微分可能性と凸性により、ジェンセンの不等式を適用して、 $W$

（1）ランダム化された手順を考慮する必要はありません[Lehmann、corollary 6.2]。

（2）1つの手続きがそのようなに対して最高のリスクを持っていると考えられる場合、十分な統計量のみに依存し、少なくともすべてのそのようなに対してリスク関数と同等の手続き改善できます。、p。151]。 $t$ $W$ $t^{*}$ $W$

例として、が平均（および単位分散）を持つ正規分布のセットであると仮定します。これにより、すべての実数のセットでが識別されます。したがって、表記法を使用して、「」を使用して、平均での分布を識別します。ましょサイズのIIDサンプルでこれらのディストリビューションの一つから。を推定することが目的だとします。これは、（任意の実数）のすべての可能な値で決定空間を識別します。まかせ独断を指定し、損失関数であります $\Omega$ $\mu$ $\Omega$ $\mu$ $\Omega$ $\mu$ $X$ $n$ $\mu$ $D$ $\mu$ $\hat\mu$

W (μ, \hat{μ}) \geq 0

$W(\mu, \hat\mu) \ge 0$

の場合に限り。上記の仮定は、（テイラーの定理を介して） $W(\mu, \hat\mu)=0$ $\mu=\hat\mu$

W (μ, \hat{μ}) = w_{2} (\hat{μ} - μ)^{2} + o (\hat{μ} - μ)^{2}

$W(\mu, \hat\mu) = w_2 (\hat\mu - \mu)^2 + o(\hat\mu - \mu)^2$

一定の正の数。（ "表記少し-O 手段任意の関数" の制限値あるとして。）先に述べたように、我々が再スケールに自由であるせる。この家族のために、平均書かれた、、十分統計量です。前の結果（キーファーから引用）は、 $w_2$ $o(y)^p$ $f$ $f(y) / y^p$ $0$ $y\to 0$ $W$ $w_2=1$ $\Omega$ $X$ $\bar X$ のいくつかの任意の関数とすることができ、変数そのような適して、のみに依存推定に変換することができる、少なくともそのようなすべてのための良好なようであり、。 $\mu$ $n$ $(x_1, \ldots, x_n)$ $W$ $\bar x$ $W$

この例で成し遂げられたのは典型的なものです：もともと変数のおそらくランダム化された関数で構成されていた非常に複雑な可能性のある手続きのセットは、単一変数の非ランダム化関数または、十分な統計が多変量である場合、少なくとも少数の変数）。そしてこれは、意思決定者の損失関数が何であるかを正確に心配することなく行うことができます。ただし、凸関数で微分可能である場合に限ります。 $n$

最も単純なそのような損失関数は何ですか？ もちろん、残りの項を無視するもので、純粋に2次関数にします。この同じクラスの他の損失関数には、べき乗よりも大きい（質問で言及されているおよびなど）、など。 $z = |\hat\mu-\mu|$ $2$ $2.1, e,$ $\pi$ $\exp(z)-1-z$

青（上の）曲線はをプロットし、赤（下）の曲線はプロットします。青い曲線も最小値がで微分可能で凸であるため、2次損失（赤い曲線）が享受する統計的手法の優れた特性の多くは、 $2(\exp(|z|)-1-|z|)$ $z^2$ $0$ （全体的に指数関数でも二次関数とは異なる動作をします）。

これらの結果は、（明らかに課せられた条件によって制限されるが）二次損失は、統計理論と実践に遍在である理由助けを説明：限られた範囲で、それがために解析的に便利なプロキシである任意の凸微分損失関数。

二次損失は、考慮すべき唯一の損失でも最良の損失でもありません。 確かに、リーマンはそれを書いています

凸損失関数は、推定問題のいくつかの単純化につながると見られています。しかし、そのような損失関数が現実的である可能性が高いかどうか疑問に思うかもしれません。場合はあなたがすべて失われたら、あなたはそれ以上失うことができない。ただ不正確性の尺度が、実際の（例えば、金融）の損失をない表し、1はそのようなすべての損失が制限されていることを主張することがあります。... $W(F, d)$

... [F]急成長する損失関数は、[仮定された分布の]テールの振る舞いについて行われた仮定に敏感になる傾向がある推定量を導きます。これらの仮定は通常、ほとんど情報に基づいていないため、あまり重要ではありません信頼性のある。

二乗誤差損失によって生成される推定量は、この点で不愉快なほど敏感であることが多いことがわかります。

[リーマン、セクション1.6。表記を少し変更しました。]

代替損失を考慮すると、豊富な可能性のセットが開かれます。分位点回帰、M推定量、ロバストな統計など、すべてをこの決定理論的な方法でフレーム化し、代替損失関数を使用して正当化できます。簡単な例については、パーセンタイル損失関数を参照してください。

参照資料

Jack Carl Kiefer、統計的推論の紹介。 Springer-Verlag 1987。

EL Lehmann、ポイント推定の理論。ワイリー1983。

— ウーバー
ソース

この距離メトリックの幾何学的プロパティは、使いやすいものです。

そしてもちろん、ほとんどの問題に対する分析的解決策があれば数学は簡単です。

— アナリスト
ソース

もう少し詳しく説明していただけますか？

— ティム

@Tim、三角形の不等式、および2次形式の数学的特性が思い浮かびました...

— アナリスト

三角形の不等式は、すべての距離メトリックに存在します。ユークリッド距離/ 2ノルム/差の2乗/ MSEを独特にするのは、それを保存する大きな変換セットです（すべての直交行列）。

— フェデリコポロニ