三角形の3Dメッシュがいくつかあります。三角形領域の統計は次のとおりです。
- 最小0.000
- 最大2341.141
- 平均56.317
- 標準開発98.720
では、数値が上記のように機能する場合、標準偏差に関して特に役立つ何かを意味するのか、それとも計算にバグがあることを示唆するのか?領域は確かに正規分布からはほど遠い。
また、以下の回答のいずれかで言及したように、数字が負になり、したがって法定範囲外になったのは平均から1 SDしかかからなかったことに本当に驚いたことです。
ありがとう
三角形の3Dメッシュがいくつかあります。三角形領域の統計は次のとおりです。
では、数値が上記のように機能する場合、標準偏差に関して特に役立つ何かを意味するのか、それとも計算にバグがあることを示唆するのか?領域は確かに正規分布からはほど遠い。
また、以下の回答のいずれかで言及したように、数字が負になり、したがって法定範囲外になったのは平均から1 SDしかかからなかったことに本当に驚いたことです。
ありがとう
回答:
標準偏差が平均よりも小さいか大きい必要があることを示すものは何もありません。データのセットが与えられた場合、平均値は同じに保つことができますが、正の数を適切に加算/減算することにより、標準偏差を任意の程度に変更できます。
@whuberの質問へのコメントからのサンプルデータセットの使用:{2、2、2、202}。@whuberによると、平均は52で標準偏差は100です。
次に、データの各要素を次のように摂動させます:{22、22、22、142}。平均はまだ52ですが、標準偏差は60です。
もちろん、これらは独立したパラメーターです。R(または好みの別のツール)で簡単な探索を設定できます。
R> set.seed(42) # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x) # and mean is near zero
[1] -0.0258244
R> sd(x) # sd is near one
[1] 1.00252
R> sd(x * 100) # scale to std.dev of 100
[1] 100.252
R>
同様に、平均値を減算し、標準偏差で割ることにより、表示しているデータを標準化します。
編集そして、@ whuberのアイデアに従って、4つの測定値に近い無限のデータセットがあります。
R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
min max sd mean
1 0 2341.14 97.9059 56.0898
R>
@Andyがこの結果に驚いた理由はわかりませんが、彼だけではないことを知っています。また、データの正規性がsdが平均よりも高いという事実と関係があるかどうかもわかりません。これが当てはまる場合、通常配布されるデータセットを生成するのは非常に簡単です。実際、標準法線の平均は0、sdは1です。sd>平均ですべての正の値の正規分布データセットを取得するのは困難です。実際、それは不可能なはずです(ただし、サンプルサイズと使用する正規性のテストによって異なります...非常に小さなサンプルでは、奇妙なことが起こります)
ただし、@ Andyが行ったように、正規性の規定を削除すると、すべての正の値であっても、sdが平均よりも大きいまたは小さい理由はありません。単一の外れ値がこれを行います。例えば
x <-runif(100、1、200)x <-c(x、2000)
113の平均と198のsdを示します(もちろん、シードによって異なります)。
しかし、大きな疑問は、なぜこれが人々を驚かせるかです。
私は統計を教えませんが、統計がどのように教えられるとこの概念が一般的になるのでしょうか。
ただ、一般的なポイントを追加して、その計算の観点から、 と ∫ X 2、F (X )のD xは によって関連しているジェンセンの不等式の両方の積分が、存在すると仮定すると、 ∫ X 2、F (X )D X ≥ { ∫ X F (X )D X } 2
おそらくOPは、平均-1 SDが負の数であることに驚いています(特に最小値が0の場合)。
明確にする可能性のある2つの例を次に示します。
20人の一年生のクラスがあり、18歳が6歳、1歳が5歳、1歳が7歳だとします。49歳の先生を追加します。平均年齢は8.0、標準偏差は9.402です。
あなたは考えているかもしれません:このクラスの1つの標準偏差の範囲は-1.402〜17.402年です。SDに負の年齢が含まれていることに驚くかもしれませんが、これは不合理に思えます。
負の年齢(または最小の0.0未満の3Dプロット)について心配する必要はありません。直観的には、平均の1 SD以内にデータの約3分の2が残っています。(実際には、平均の2 SD以内にデータの95%があります。)
データが非正規分布になると、このような驚くべき結果が表示されます。
2番目の例。ランダムネスにだまされた彼の本では、ナッシム・タレブは目隠しアーチャーが無制限の長さの壁を撃つという思考実験を設定しています。アーチャーは+90度から-90度の間で射撃できます。
時々、射手は壁に平行に矢を放ち、決して当たらないでしょう。数字の分布として、矢印がターゲットをどの程度見逃しているかを考慮してください。このシナリオの標準偏差は無期限になります。
ガンマ確率変数 密度で
R
to get a feeling about this. Here are examples with and .
> m <- 10
> s <- 1
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 10.01113
> sd(x)
[1] 1.002632
> m <- 1
> s <- 10
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 1.050675
> sd(x)
[1] 10.1139
As pointed out in the other answers, the mean and standard deviation are essentially unrelated in that it is not necessary for the standard deviation to be smaller than the mean. However, if the data are nonnegative, taking on values in , say, then, for large data sets (where the distinction between dividing by or by does not matter very much), the following inequality holds:
What you seem to have in mind implicitly is a prediction interval that would bound the occurrence of new observations. The catch is: you must postulate a statistical distribution compliant with the fact that your observations (triangle areas) must remain non-negative. Normal won't help, but log-normal might be just fine. In practical terms, take the log of observed areas, calculate the mean and standard deviation, form a prediction interval using the normal distribution, and finally evaluate the exponential for the lower and upper limits -- the transformed prediction interval won't be symmetric around the mean, and is guaranteed to not go below zero. This is what I think the OP actually had in mind.
Felipe Nievinski points to a real issue here. It makes no sense to talk in normal distribution terms when the distribution is clearly not a normal distribution. All-positive values with a relatively small mean and relatively large standard deviation cannot have a normal distribution. So, the task is to figure out what sort of distribution fits the situation. The original post suggests that a normal distribution (or some such) was clearly in mind. Otherwise negative numbers would not come up. Log normal, Rayleigh, Weibull come to mind ... I don't know but wonder what might be best in a case like this?