標準偏差の定義で、平均(E)を取得し、最後に平方根を取り戻すために、平均との差を2乗する必要があるのはなぜですか?代わりに、単に差の絶対値を取得し、それらの期待値(平均)を取得することはできませんか?また、データの変動も表示されませんか?数値は二乗法とは異なります(絶対値法は小さくなります)が、データの広がりを示す必要があります。この正方形のアプローチを標準として採用している理由は誰にもわかりますか?
標準偏差の定義:
代わりに絶対値を取得し、それでも適切な測定値を取得することはできませんか?
標準偏差の定義で、平均(E)を取得し、最後に平方根を取り戻すために、平均との差を2乗する必要があるのはなぜですか?代わりに、単に差の絶対値を取得し、それらの期待値(平均)を取得することはできませんか?また、データの変動も表示されませんか?数値は二乗法とは異なります(絶対値法は小さくなります)が、データの広がりを示す必要があります。この正方形のアプローチを標準として採用している理由は誰にもわかりますか?
標準偏差の定義:
代わりに絶対値を取得し、それでも適切な測定値を取得することはできませんか?
回答:
標準偏差の目的が対称データセットの広がりを要約することである場合(つまり、一般に各データムが平均からどれだけ離れているか)、その広がりを測定する方法を定義する適切な方法が必要です。
二乗の利点は次のとおりです。
ただし、平方にはスプレッドの尺度として問題があります。つまり、ユニットはすべて平方されますが、スプレッドは元のデータと同じ単位にすることをお勧めします(平方ポンド、平方ドル、リンゴの平方など) 。したがって、平方根により元の単位に戻ることができます。
絶対差はデータの広がりに等しい重みを割り当てるのに対し、二乗は極端を強調すると言うことができると思います。技術的には、他の人が指摘しているように、二乗は代数の操作をはるかに簡単にし、絶対的な方法ではないプロパティを提供します(たとえば、分散は分布の二乗から期待値の二乗を引いた値に等しくなります)分布の平均)
ただし、「スプレッド」を表示する方法の好みであれば、絶対的な差をとることができない理由はないことに注意することが重要です(値の魔法のしきい値として5%を見る人の並べ替え、実際に状況に依存する場合)。実際、スプレッドを測定するためのいくつかの競合する方法が実際にあります。
私の見解は、それが統計のピタゴラスの定理にどのように関係するのかを考えるのが好きなので、2乗値を使用することです: …これは、独立したランダム変数で作業するとき、分散が追加され、標準偏差は追加されません。しかし、それは私の個人的な主観的な好みであり、主に記憶補助としてのみ使用します。この段落は無視してください。
より詳細な分析については、こちらをご覧ください。
差の2乗には、より優れた数学的特性があります。連続的に微分可能であり(最小化する場合に最適)、ガウス分布にとって十分な統計量であり、収束の証明などに役立つL2ノルム(のバージョン)です。
平均絶対偏差(提案する絶対値表記)も分散の尺度として使用されますが、2乗誤差ほど「行儀が良い」わけではありません。
これについて考えることができる1つの方法は、標準偏差が「平均からの距離」に似ているということです。
これをユークリッド空間の距離と比較してください-これは、あなたが提案したもの(これは絶対偏差です)がマンハッタン距離の計算により近い真の距離を与えます。
理由我々はなく絶対誤差の標準偏差を計算し、我々がされていることである正規分布する誤差を想定します。モデルの一部です。
定規を使用して非常に短い長さを測定している場合、誤って負の長さを測定することは決してないことがわかっているため、標準偏差はエラーの悪い指標です。より良いメトリックは、ガンマ分布を測定に適合させるためのものです。
標準偏差と同様に、これも負ではなく微分可能ですが、この問題に対するより良いエラー統計です。
私が最も満足した答えは、サンプルをn次元ユークリッド空間に一般化することから自然に外れることです。それを行うべきかどうかは確かに議論の余地がありますが、いずれにせよ:
測定値はそれぞれ軸であると仮定します。次に、データがその空間に点定義します。ここで、データはすべて非常に類似していることに気付くかもしれません。そのため、定義された行にあるように制約される単一のロケーションパラメーターでそれらを表すことができます。このラインにデータポイントを投影すると、が得られ、投影ポイントから実際のデータポイントまでの距離は。X iはR、N 、X I、X μ X I = μ μ = ˉ X μ 1 √
このアプローチにより、相関の幾何学的解釈も取得できます。
(上記の優れたものに加えて)さらに別の理由は、標準偏差が絶対偏差よりも「効率的」であることを示したフィッシャー自身によるものです。ここで、効率的なのは、母集団からのさまざまなサンプリングで統計値がどの程度変動するかです。母集団が正規分布している場合、その母集団からのさまざまなサンプルの標準偏差は、平均して、互いに非常に類似した値を提供する傾向がありますが、絶対偏差は、より多くの数値を提供します。さて、これは明らかに理想的な状況ですが、この理由は多くの人を納得させたので(数学がよりクリーンであるため)、ほとんどの人は標準偏差で作業しました。
分散は加算的です:独立したランダム変数場合、
これが何を可能にするかに注目してください。フェアコインを900回投げるとしましょう。私が得るヘッドの数が440から455の間である確率は何ですか?ちょうどヘッドの予想数(見つける)、およびヘッド(の数の分散)、次に期待して正常(またはガウス)分布を有する確率を見つけると標準偏差との間でと。アブラハム・ド・モアブルは、18世紀にコイン投げでこれを行い、それによって最初に鐘形の曲線が何か価値があることを示しました。225 = 15 2 450 15 439.5 455.5
単一の変数を超えて線形回帰を考えると、絶対偏差と平方偏差の使用の対比がより明確になると思います。http://en.wikipedia.org/wiki/Least_absolute_deviationsで、特に「最小二乗と最小絶対偏差の対比」セクションで素晴らしい議論があります。このセクションは、http:// wwwの適切なアプレットセットを使用した学生演習にリンクしています。.math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html。
要約すると、最小絶対偏差は通常の最小二乗よりも外れ値に対してロバストですが、不安定になる可能性があり(単一のデータの小さな変化でもフィット線に大きな変化が生じる可能性があります)、常に一意のソリューションがあるわけではありません-全範囲の適合線。また、最小絶対偏差には反復法が必要ですが、通常の最小二乗法は単純な閉形式の解を持ちますが、もちろんガウスやルジャンドルの時代ほど大したことではありません。
多くの理由があります。おそらく主なことは、正規分布のパラメーターとしてうまく機能することです。
多くの点で、標準偏差を使用して分散を要約すると、結論に跳ね返ります。SDは、平均より上の距離と平均より上の距離の扱いが等しいため、暗黙的に対称分布を仮定していると言えます。SDを非統計学者に解釈するのは驚くほど困難です。Giniの平均差はより広い用途を持ち、非常に解釈しやすいと主張することができます。SDの使用が平均に対して行うように、中心傾向の尺度の選択を宣言する必要はありません。ジニの平均差は、2つの異なる観測値の平均絶対差です。堅牢で解釈しやすいことに加えて、分布が実際にガウス分布である場合、SDと同じ0.98の効率であることがあります。
分布の標準偏差を推定するには、距離を選択する必要があります。
次の距離のいずれかを使用できます。
通常、自然のユークリッド距離()を使用します。これは、誰もが日常生活で使用する距離です。提案する距離は、の距離です。
両方とも良い候補ですが、それらは異なります。n = 1
を使用することもできます。
あなたが私の答えを好きになるかどうかはわかりませんが、他の人に反する私のポイントは、がより良いことを実証することではありません。分布の標準偏差を推定する場合、絶対に異なる距離を使用できると思います。
「データの広がり」と言うときに何を話しているかによって異なります。私にとって、これは次の2つのことを意味します。
ポイント1)では、標準サンプリング分布を使用する場合を除いて、標準偏差をスプレッドの尺度として使用する特別な理由はありません。メジャーは、ラプラスサンプリング分布の場合、より適切なメジャーです。私の推測では、ポイント2)から引き継がれた直感のために、標準偏差がここで使用されます。おそらく、一般に最小二乗モデリングの成功によるもので、標準偏差が適切な尺度です。おそらく、計算することは、ほとんどの分布でを計算するよりも一般に簡単だからでしょう。
さて、ポイント2)には、分散の尺度として分散/標準偏差を使用する非常に正当な理由があります。後部のラプラス近似で見ることができます。データと事前情報を使用して、パラメーター事後を次のように記述します。
をダミー変数として使用して、分母が依存しないことを示しました。後部に単一の十分に丸められた最大値がある場合(つまり、「境界」に近すぎない場合)、最大値について対数確率をテイラー展開できます。テイラー展開の最初の2つの項を取得する場合(微分にプライムを使用):
しかし、ここではが「十分に丸められた」最大値であるため、次のようになります。
この近似を組み込むと、次のようになります。
ただし、表記法では正規分布であり、平均はに等しく、分散は
(は常に正の値です。これは、最大値が十分に丸められているためです)。したがって、これは「通常の問題」(それらのほとんど)で、分散がの推定の精度を決定する基本量であることを意味します。したがって、大量のデータに基づいた推定値の場合、標準偏差は理論的には非常に理にかなっています。これは、基本的に知っておく必要のあるすべてのことを示しています。多次元の場合、本質的に同じ引数が(必要な同じ条件で)適用されますはヘッセ行列です。ここでも対角要素は本質的に分散です。
MLEはデータの重み付き組み合わせになる傾向があるため、最尤法を使用する頻度論者は本質的に同じ結論に達します。また、大規模なサンプルの場合、中央極限定理が適用され、、ただしと入れ替えた場合: (私が好むパラダイムを推測できるかどうかを確認してください:P)。どちらにしても、パラメータ推定では、標準偏差はスプレッドの重要な理論的尺度です。θ θの最大 P (θ maxの | θ )≈ N ( θ 、[ - H "(θの最大値)] - 1)
「絶対値を取る」のではなく「なぜ差を二乗する」のでしょうか?非常に正確に答えるために、それが採用された理由と、それらの理由のほとんどが成り立たない理由の事例を示す文献があります。「単純に絶対値を取得することはできません...?」。私は、答えがイエスであり、それが行われている文学を知っています。そうすることは有利であると主張されています。
著者のGorardは、最初に、正方形の使用は以前は計算の単純さの理由で採用されたが、それらの元の理由はもはや成り立たないと述べている。次に、Gorardは、OLSを使用した分析のサンプルの結果は、絶対差を使用した分析の偏差よりも小さい(大雑把に述べた)ため、OLSが採用されたと述べています。したがって、OLSにはいくつかの理想的な状況で利点があると思われます。しかし、Gorardは、実世界の状況(観測値の不均一な測定、不均一な分布、サンプルからの推論のない母集団の研究)では、平方を使用することは、絶対的な違い。
あなたの質問に対するゴラードの回答「代わりに単に差の絶対値を取り、それらの期待値(平均)を取得することはできませんか?」はい。別の利点は、違いを使用すると、人生でそれらのアイデアを経験する方法に関連する尺度(エラーと変動の尺度)が生成されることです。ゴラードは、レストランの請求書を均等に分割する人々を想像し、一部の人々はその方法が不公平であることに直感的に気付くかもしれないと言います。エラーを二乗する人はいません。違いがポイントです。
最後に、絶対差を使用して、各観測値を平等に処理しますが、対照的に、差を二乗することにより、観測値が十分に予測された観測値よりも重みが小さくなり、特定の観測値を複数回調査に含めることができるようになります 要約すると、彼の一般的な趣旨は、今日正方形を使用する多くの勝利の理由がなく、対照的に絶対差を使用することには利点があるということです。
参照:
ランダム変数を追加すると、すべての分布に対してその分散が追加されます。分散(したがって標準偏差)は、ほぼすべての分布に役立つ尺度であり、ガウス分布(別名「正規」)分布に限定されるものではありません。これは、エラー測定として使用することを好みます。一意性の欠如は、絶対数の差を伴う深刻な問題です。多くの場合、等しい尺度の「適合」は無限にありますが、明らかに「中間の1つ」が最も現実的に好まれます。また、今日のコンピューターでも、計算効率が重要です。私は大規模なデータセットを使用していますが、CPU時間は重要です。ただし、以前の回答で指摘されているように、残差の絶対的な「最良」の測定値はありません。状況によっては、さまざまな手段が必要になる場合があります。
当然のことながら、分布の分散を意味のある方法(絶対偏差、変位値など)で記述することができます。
1つの良い事実は、分散が2番目の中心モーメントであり、すべての分布が存在する場合、そのモーメントによって一意に記述されることです。別の良い事実は、分散が同等のメトリックよりも数学的にはるかに扱いやすいことです。もう1つの事実は、分散が通常のパラメーター化の正規分布の2つのパラメーターの1つであり、正規分布にはこれらの2つのパラメーターである2つの非ゼロ中心モーメントのみがあることです。非正規分布であっても、正規のフレームワークで考えることは役立ちます。
私が見るように、標準偏差が存在する理由は、アプリケーションでは分散の平方根が定期的に表示されるため(ランダム変数を標準化するなど)、名前が必要になるためです。
別の、おそらくより直感的なアプローチは、線形回帰と中央値回帰を考えるときです。
モデルがます。その後、我々はminimisize予想二乗残差によってBを見つける。
代わりにモデルがMedianである場合、絶対残差を最小化することでパラメーター推定値を見つけます。。
つまり、絶対誤差を使用するか二乗誤差を使用するかは、期待値と中央値のどちらをモデル化するかによって異なります。
分布は、例えば、歪んだ不均一が表示される場合、その後に大きな差がある方の期待値の傾き上の変更傾きがためにどのように中央値の値。
KoenkerとHallockには、クォンタイル回帰に関するすばらしい記事があります。ここで、中央値回帰は特別なケースです:http ://master272.com/finance/QR/QRJEP.pdf
私の推測では、これはほとんどの人口(分布)が平均値付近に集中する傾向があることです。値が平均から遠いほど、それはまれです。値がどの程度「アウトオブライン」であるかを適切に表現するには、平均からの距離とその(通常は)発生のまれさの両方を考慮する必要があります。これは、偏差の小さい値と比較して、平均との差を二乗することで行われます。すべての分散が平均化されたら、平方根を取得しても問題ありません。平方根は単位を元の次元に戻します。
二乗は、より大きな偏差を増幅します。
サンプルの値がチャート全体にある場合、68.2%を最初の標準偏差内に収めるには、標準偏差を少し広くする必要があります。データがすべて平均を下回る傾向がある場合、σはより厳密になります。
計算を簡素化することだと言う人もいます。平方の正の平方根を使用すると、引数が浮動しないように解決できます。
したがって、代数的単純さが目標であれば、次のようになります。
これはと同じ結果をもたらし。
明らかにこれを二乗すると、外れたエラーを増幅する効果もあります(doh!)。
sqrt((x-mu)^2)、式は誤解を招く可能性があります。さらに、二乗に大きな偏差を増幅する効果があるからといって、これがMADよりも分散を優先する理由であることを意味するわけではありません。どちらかといえば、それは中立的な特性です。なぜなら、しばしばMADのようなより堅牢なものが必要だからです。最後に、分散がMADより数学的に扱いやすいという事実は、この投稿で伝えたよりも数学的にはるかに深い問題です。
なぜ標準偏差の絶対値を取るのではなく、差を二乗するのですか?
自由度の平方根(母集団測定におけるxの数)に比例するユークリッド距離が分散の最適な測定であるため、xの平均との差を2乗します。
ポイント0からポイント5までの距離は?
わかりました、それは単次元なので、それは些細なことです。
ポイント0、0からポイント3、4のポイントの距離はどうですか?
一度に1つの次元にしか移動できない場合(都市ブロックなど)、数値を加算するだけです。(これはマンハッタン距離と呼ばれることもあります)。
しかし、一度に2つの次元に進むのはどうでしょうか?次に(高校で学んだすべてのピタゴラスの定理により)、各次元の距離を2乗し、平方を合計し、平方根を取得して、原点から点までの距離を求めます。
0、0、0のポイントからポイント1、2、2までの距離はどうですか?
これだけ
これは、最初の2つのxの距離が、最後のxとの合計距離を計算するための区間を形成するためです。
次のように、各次元の距離の2乗の規則を拡張し続けることができます。これは、超次元空間での直交測定のために、ユークリッド距離と呼ばれるものに一般化されます。
そして、直交二乗の合計は二乗距離です:
測定を別の測定に直交(または直角)にする理由は何ですか?条件は、2つの測定値の間に関係がないことです。これらの測定値が独立しており、個別に分散されるようにします(iid)。
ここで、母集団の分散の式を思い出してください(そこから標準偏差を取得します)。
平均値を差し引いてデータをすでに0にセンタリングしている場合、次のようになります。
そのため、分散は、距離の2乗を自由度の数(変数が自由に変化する次元の数)で割ったものであることがわかります。これは、測定ごとのへの平均寄与でもあります。「平均平方分散」も適切な用語です。
次に、標準偏差があります。これは、分散の平方根にすぎません。
これは同等に、距離を自由度の平方根で割ったものです:
平均絶対偏差(MAD)は、マンハッタン距離、または平均との差の絶対値の合計を使用する分散の尺度です。
繰り返しますが、データが中心にあると仮定すると(平均が差し引かれます)、マンハッタン距離を測定数で除算します。
この表は、上記の情報をより簡潔に反映しています。
「平均絶対偏差は、正規分布データセットの標準偏差のサイズの約0.8倍です」という参考文献はありますか?私が実行しているシミュレーションは、これが間違っていることを示しています。
標準正規分布からの100万サンプルの10のシミュレーションを次に示します。
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
分散の尺度を計算するときは、ユークリッド距離を活用できるため、分散のより良い記述統計が得られるため、平方差を好みます。比較的極端な値がある場合、ユークリッド距離は統計でそれを考慮しますが、マンハッタン距離は各測定に等しい重みを与えます。