非負データの標準偏差は平均を超えることができますか?


15

三角形の3Dメッシュがいくつかあります。三角形領域の統計は次のとおりです。

  • 最小0.000
  • 最大2341.141
  • 平均56.317
  • 標準開発98.720

では、数値が上記のように機能する場合、標準偏差に関して特に役立つ何かを意味するのか、それとも計算にバグがあることを示唆するのか?領域は確かに正規分布からはほど遠い。

また、以下の回答のいずれかで言及したように、数字が負になり、したがって法定範囲外になったのは平均から1 SDしかかからなかったことに本当に驚いたことです。

ありがとう


4
データセット内の{2,2,2,202}サンプル標準偏差は、100の平均であるのに対し52あなたが観察するものに--pretty近いです。
whuber

5
お馴染みの(一部の)例として、ブラックジャックを1時間プレイした結果の平均はマイナス25 ドルかもしれませんが、標準偏差は100ドル(説明のための数字)です。この大きな変動係数により、だれかがだまされて実際よりも優れていると思うようになりやすくなります。
マイケルマクゴーワン

フォローアップの質問があまりにも、非常に有益である:それは平均与えられ、(非負データ)のセットのSDに境界を置きます。
whuber

回答:


9

標準偏差が平均よりも小さいか大きい必要があることを示すものは何もありません。データのセットが与えられた場合、平均値は同じに保つことができますが、正の数を適切に加算/減算することにより、標準偏差を任意の程度に変更できます

@whuberの質問へのコメントからのサンプルデータセットの使用:{2、2、2、202}。@whuberによると、平均は52で標準偏差は100です。

次に、データの各要素を次のように摂動させます:{22、22、22、142}。平均はまだ52ですが、標準偏差は60です。


1
各要素に追加する場合、ロケーションパラメータ、つまり平均値を変更します。分散(つまり標準偏差)を変更するには、スケール係数を掛けます(平均がゼロの場合)。
ダークエデルビュッテル

@DirkEddelbuettelあなたは正しいです。答えを修正し、わかりやすくするために例を提供しました。
varty

2
私は例に従っていません。新しいデータセットは、元の値のそれぞれから「正の数を加算または減算する」ことによって、元のデータから明らかに導出されません
whuber

3
あなたが何を言おうとしているかわからないので、私はそれを編集できません。あなたが任意のデータセット内の数字のそれぞれに別々の値を追加することができた場合、あなたは単に、一組の変更されているの完全に異なるセットに値をn個の値。それが質問や冒頭の段落にどのように関連するのかわかりません。そのような変更が平均値とSDを変更できることを誰もが認めると思いますが、非負データのセットのSDがその平均値の正の倍数になる理由はわかりません。nn
whuber

2
あなたは正しいです:引用された主張は私のものであり、あなたの返信には現れません。(ただし、正しい関連性があります。:-)私が理解しようとしている1つのポイントは、SDを変更するだけで、平均値を同じに保つだけでは質問に答えられないということです。 SDはどの程度変更できます(すべてのデータを非負に保ちながら)。私が試みた他のポイントは、あなたの例は、データにそのような変更を加える一般的な予測可能なプロセスを示していないということです。これにより、任意に見えるようになりますが、あまり役に立ちません。
whuber

9

もちろん、これらは独立したパラメーターです。R(または好みの別のツール)で簡単な探索を設定できます。

R> set.seed(42)     # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x)          # and mean is near zero
[1] -0.0258244
R> sd(x)            # sd is near one
[1] 1.00252
R> sd(x * 100)      # scale to std.dev of 100
[1] 100.252
R> 

同様に、平均値を減算し、標準偏差で割ることにより、表示しているデータを標準化します。

編集そして、@ whuberのアイデアに従って、4つの測定値に近い無限のデータセットがあります。

R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
  min     max      sd    mean
1   0 2341.14 97.9059 56.0898
R> 

私はあなたの主張を理解しているかわかりません。1つのデータポイントを摂動することで平均を変更し、それによって標準偏差も変更する可能性があるため、それらは完全に独立しているわけではありません。私は何かを誤解しましたか?
varty

(質問で引用された最小値によって確認されるように)三角形の領域が負になることはないことに注意して、非負の数値のみで構成される例を期待します。
whuber

(+1)再編集:52.15の536複製を使用してみてください:-)。
whuber

ニース1 536担当者。バイナリ検索を実行する必要がありました:)
ダークエデルブッテル

@Dirk "これらは独立したパラメーターです"、がベルヌイの場合を考えてください。分散と平均は独立ではありません:v a r X = p 1 p 。確率変数を考慮する 100 > X > 0に可能な最大分散である、50 2(すなわち、より低いあなたが1に等しくなるように平均値を強制場合今や50最大分散よりも大きくすることはできません)99 / 100 * 1 2 + Xvar(X)=p(1p)100>X>0(50)250。自然界にはガウス分布よりも多くの有界変数の例がありますか?99/100(1)2+(1/100)992
ロビンギラード

7

@Andyがこの結果に驚いた理由はわかりませんが、彼だけではないことを知っています。また、データの正規性がsdが平均よりも高いという事実と関係があるかどうかもわかりません。これが当てはまる場合、通常配布されるデータセットを生成するのは非常に簡単です。実際、標準法線の平均は0、sdは1です。sd>平均ですべての正の値の正規分布データセットを取得するのは困難です。実際、それは不可能なはずです(ただし、サンプルサイズと使用する正規性のテストによって異なります...非常に小さなサンプルでは、​​奇妙なことが起こります)

ただし、@ Andyが行ったように、正規性の規定を削除すると、すべての正の値であっても、sdが平均よりも大きいまたは小さい理由はありません。単一の外れ値がこれを行います。例えば

x <-runif(100、1、200)x <-c(x、2000)

113の平均と198のsdを示します(もちろん、シードによって異なります)。

しかし、大きな疑問は、なぜこれが人々を驚かせるかです。

私は統計を教えませんが、統計がどのように教えられるとこの概念が一般的になるのでしょうか。


私は統計学を勉強したことは一度もありませんが、工学数学のほんの数単位で、それは30年前のことです。私がドメインをよりよく理解していると思っていた職場の他の人々は、「平均から離れた標準開発者の数」によって不良データを表すことについて話していました。だから、それは「教えられる」よりも「標準開発者が一般的にどのように言及されるか」に関するものです:
Andy Dent

@Andyが平均値から離れているstdの数が多いということは、変数がゼロと有意な差がないことを意味します。それはコンテキストに依存します(これはランダム変数の意味でした)が、場合によってはそれらを削除したいかもしれませんか?
ロビンギラード

@Peterは、Dirkへの私のコメントを参照してください。これは、ある文脈における「驚き」を説明するかもしれません。実際、私はしばらくの間統計を教えてきましたが、あなたが話している驚きを見たことはありません。とにかく、私はこれが良い認識論的立場であると確信しているすべてに驚いている学生を好む(絶対に驚きのない立場を失神するよりも良い:))。
ロビンギラード

@AndyDentの「不良」データとは、誤って記録されたデータを意味します。平均からかけ離れたデータは外れ値です。たとえば、人々の身長を測定しているとします。あなたが私を測定し、私の身長を5'7ではなく7'5 'として記録すると、それは悪いデータです。あなたはヤオミンを測定し、不正なデータを外れ値だがない7'5"としての彼の高さを記録かかわらず、実際のそれは平均(6つのSDSのようなもの)から非常に遠いことをした場合。
ピーターFlom -復活モニカ

@Peter Florn、私たちのケースでは、メッシュを処理するアルゴリズムの問​​題を引き起こす三角形を表すため、除外したい外れ値があります。不良なスキャンデバイスまたは他の形式からの変換によって作成された場合、それらはあなたの意味で「不良データ」である可能性があります。このデータに関するより興味深いことの1つは、両端に「不良データ」が存在することですが、小さなものは平均からそれほど遠くありません。
アンディデント

6

ただ、一般的なポイントを追加して、その計算の観点から、 X 2、F X のD xは によって関連しているジェンセンの不等式の両方の積分が、存在すると仮定すると、 X 2、F X D X { X F X D X } 2

バツfバツdバツ
バツ2fバツdバツ
この一般的な不等式を考えると、分散が任意に大きくなることを妨げるものは何もありません。証人スチューデントのt分布 ν自由度は、 X Tν μ σ とが取る Yを= | X | その2次モーメントは X E [ |の 2次モーメントと同じです X | 2 ] = ν
バツ2fバツdバツ{バツfバツdバツ}2
ν
バツTνμσ
Y=|バツ|バツ ときν>2。したがって、ν2に下がると無限大になりますが、Yの平均はν>1である限り有限のままです。
E[|X|2]=νν2σ2+μ2,
ν>2ν2Yν>1

1
質問の非負の値に対する明示的な制限に注意してください。
whuber

学生例は容易...絶対値の-スチューデントt分布の例に翻訳されます
西安

1
しかし、それはもちろん平均を変えます:-)。質問は、SDと平均値の関係に関するものです(タイトルを参照)。あなたが間違っていると言っているのではありません。あなたの返信は、少しの作業で、より直接的に質問に答えることができることを(暗黙的に)提案しています。
whuber

@whuber:わかりました、絶対値を考慮するために上記を編集しました(絶対値の平均も導き出しましたが、<a href=" ceremade.dauphine.fr/~xian/meanabs.pdf">やや不格好です</ a> ...)
西安

3

おそらくOPは、平均-1 SDが負の数であることに驚いています(特に最小値が0の場合)。

明確にする可能性のある2つの例を次に示します。

20人の一年生のクラスがあり、18歳が6歳、1歳が5歳、1歳が7歳だとします。49歳の先生を追加します。平均年齢は8.0、標準偏差は9.402です。

あなたは考えているかもしれません:このクラスの1つの標準偏差の範囲は-1.402〜17.402年です。SDに負の年齢が含まれていることに驚くかもしれませんが、これは不合理に思えます。

負の年齢(または最小の0.0未満の3Dプロット)について心配する必要はありません。直観的には、平均の1 SD以内にデータの約3分の2が残っています。(実際には、平均の2 SD以内にデータの95%があります。)

データが非正規分布になると、このような驚くべき結果が表示されます。

2番目の例。ランダムネスだまされた彼の本では、ナッシム・タレブは目隠しアーチャーが無制限の長さの壁を撃つという思考実験を設定しています。アーチャーは+90度から-90度の間で射撃できます。

時々、射手は壁に平行に矢を放ち、決して当たらないでしょう。数字の分布として、矢印がターゲットをどの程度見逃しているかを考慮してください。このシナリオの標準偏差は無期限になります。


平均の1 SD以内のデータの約2/3は、通常のデータ用のルールです。ただし、教室のデータは明らかに非正常です(サンプルサイズが小さいために正常性のテストに合格した場合でも)。タレブの例はひどいです。これは、変数の不十分な操作性の例です。そのままでは、平均とSDの両方が無限になります。しかし、それはナンセンスです。「矢がどこまで逃したか」-私にとっては、それは距離です。矢は、どのように発射されても、どこかに着陸します。そこからターゲットまでの距離を測定します。これ以上の無限。
ピーターフロム-モニカを復活

1
うん、OPを初めて見たときは十分に驚いた-1 SDが負になり、Excelのデータを使用してまったく新しいユニットテストセットを作成し、少なくとも私のアルゴリズムが同じ値を計算していることを確認した。Excelは信頼できるソースである必要があります。
アンディデント

@Peter 2/3ルール(68-95-99.7%ルールの一部)は、非常に多様なデータセットに適しています。それらの多くは、通常ではなく、適度に歪んだデータセットにも適しています。(規則は対称データセットに非常に適しています。)SDと平均の非有限性は「ナンセンス」ではありません。Talebの例は、Cauchy分布がデータ生成プロセスを明確に支配している数少ない非創造的な状況の1つです。SDの無限性は、壁が失われる可能性からではなく、実際のヒットの分布から導き出されます。
whuber

1
@whuber私はあなたの最初のポイントを知っていました、それは良いものです。Talebについてのあなたの2番目の点について私は同意しません。私には別の不自然な例のように思えます。
ピーターフロム-モニカを復活

3

ガンマ確率変数 バツ 密度で

fバツバツ=βαΓαバツα1eβバツ0バツ
αβ>0、ほぼ確実に肯定的です。平均を選ぶm>0 および標準偏差 s>0. As long as they are positive, it does not matter if m>s or m<s. Putting α=m2/s2 and β=m/s2, the mean and standard deviation of X are E[X]=α/β=m and Var[X]=α/β2=s. With a big enough sample from the distribution of X, by the SLLN, the sample mean and sample standard deviation will be close to m and s. You can play with R to get a feeling about this. Here are examples with m>s and m<s.
> m <- 10
> s <- 1
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 10.01113
> sd(x)
[1] 1.002632

> m <- 1
> s <- 10
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 1.050675
> sd(x)
[1] 10.1139

1

As pointed out in the other answers, the mean x¯ and standard deviation σx are essentially unrelated in that it is not necessary for the standard deviation to be smaller than the mean. However, if the data are nonnegative, taking on values in [0,c], say, then, for large data sets (where the distinction between dividing by n or by n1 does not matter very much), the following inequality holds:

σxx¯(cx¯)c2
and so if x¯>c/2, we can be sure that σx will be smaller. Indeed, since σx=c/2 only for an extremal distribution (half the data have value 0 and the other half value c), σx<x¯ can hold in some cases when x¯<c/2 as well. If the data are measurements of some physical quantity that is nonnegative (e.g. area) and have an empirical distribution that is a good fit to a normal distribution, then σx will be considerably smaller than min{x¯,cx¯} since the fitted normal distribution should assign negligibly small probability to the events {X<0} and {X>c}.

4
問題は、データセットが正常かどうかではないと思います。その非正規性が規定されています。OPは、この明らかに非正常なデータセットでも、SDが平均よりもはるかに大きいことに驚いているため、標準偏差の計算でエラーが発生した可能性があるかどうかが問題になります。エラーが発生しなかった場合、このような大きな変動係数から何を結論づけることができますか?
whuber

9
Any answer or comment that claims the mean and sd of a dataset are unrelated is plainly incorrect, because both are functions of the same data and both will change whenever a single one of the data values is changed. This remark does bear some echoes of a similar sounding statement that is true (but not terribly relevant to the current question); namely, that the sample mean and sample sd of data drawn independently from a normal distribution are independent (in the probabilistic sense).
whuber

1

What you seem to have in mind implicitly is a prediction interval that would bound the occurrence of new observations. The catch is: you must postulate a statistical distribution compliant with the fact that your observations (triangle areas) must remain non-negative. Normal won't help, but log-normal might be just fine. In practical terms, take the log of observed areas, calculate the mean and standard deviation, form a prediction interval using the normal distribution, and finally evaluate the exponential for the lower and upper limits -- the transformed prediction interval won't be symmetric around the mean, and is guaranteed to not go below zero. This is what I think the OP actually had in mind.


0

Felipe Nievinski points to a real issue here. It makes no sense to talk in normal distribution terms when the distribution is clearly not a normal distribution. All-positive values with a relatively small mean and relatively large standard deviation cannot have a normal distribution. So, the task is to figure out what sort of distribution fits the situation. The original post suggests that a normal distribution (or some such) was clearly in mind. Otherwise negative numbers would not come up. Log normal, Rayleigh, Weibull come to mind ... I don't know but wonder what might be best in a case like this?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.