標準偏差は完全に間違っていますか?どのように高さ、カウントなどの正の数値を計算できますか?


13

高さ(cm)を計算していて、数値はゼロよりも大きくなければならないとします。

サンプルリストを次に示します。

0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981

Mean: 0.41138725956196015
Std: 0.2860541519582141

この例では、正規分布に従って、値の99.7%が平均からの標準偏差の±3倍の間にある必要があります。ただし、標準偏差の2倍でも負になります。

-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468

しかし、私の数字は正でなければなりません。負の数は無視できますが、これが標準偏差を使用して確率を計算する正しい方法だとは思いません。

これを正しい方法で使用しているかどうかを誰かが理解するのを助けることができますか?または、別の方法を選択する必要がありますか?

正直言って、数学は数学です。正規分布であるかどうかは関係ありません。符号なしの数値で動作する場合、正の数値でも動作するはずです!私が間違っている?

EDIT1:ヒストグラムを追加しました

より明確にするために、実際のデータのヒストグラムを追加しました ここに画像の説明を入力してください

EDIT2:いくつかの値

Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05

28
ここでの誤解は、正の数のみを持つことができる分布は正規ではないため、あなたが述べる99.7%のルールは適用されないということです。第二に、(サンプル)標準偏差の式から、元の値が正であるという条件がないことがわかります。誤って使用されている可能性がありますが、統計はほとんど不可知論的であり、無意識に適用すべきではありません。
モモ

8
68-95-99.7ルールの美しさ、@Momoは、それがあることであるであっても、多くの決定的非正規分布に適用されます。この場合、数値の50%は平均の1 sd以内であり、100%は平均の2 sds以内です。68%が50%を正確に近似し、95%が100%を正確に近似することを確認してください。したがって、この例は、サイズが小さいため少し納得できないかもしれませんが、経験則を示しています。
whuber

2
同意する。これを「あなたが述べている99.7%のルールが必ずしも適用されるとは限らない」ように修正させてください。ここでの混乱の原因は、これを経験則ではなく、「予想される逸脱の範囲内」の微妙なニュアンスの観点からではないように適用しているようです。OPの最後のコメントはそれを示しています。
モモ

4
タイトルは、「68-95-99.7ルールをポジティブでなければならないデータに適用する方法」のようなものに変更する必要がありますか?それは質問の精神をより多く捉えていると思います。(標準偏差の計算方法に問題はありません。これは、タイトルが示唆するものですが、確率を見つけるために使用される方法です。)
Silverfish

4
標準偏差は「間違った」ものではありません。それほど正確ではないのは、そうではない通常のものとして扱うことです。正規性によって暗示される標準偏差の指定された数の外側の比率は、他の分布に対して必ずしも正確ではありません。2つの標準偏差に近い連続的な単峰性の分布の場合、両側の間隔はかなり合理的であることがよくありますが、さらに遠くのテール確率は非常に高い相対誤差を持つ可能性があります。
Glen_b -Reinstateモニカ

回答:


23

数値が正数にしかならない場合、正規分布はすべての実数でサポートされるため、ユースケースによっては正規分布としてモデル化することは望ましくない場合があります。

おそらく、高さを指数分布としてモデル化したいのでしょうか、それとも切り捨てられた正規分布でしょうか?

編集:あなたのデータを見た後、それは本当に指数分布によく合うかもしれないように見えます!たとえば、最尤法を使用して、パラメーターを推定できます。λ


10
最初の文は一般に正しくありません。厳密に正である多くの量は、多くの場合、正規分布で近似できます。0未満の確率質量が非常に小さい場合、すべての実用的な目的にとって重要ではありません。この特定のケースでは、それは確かに正しいです。
COOLSerdash

13
-1この回答は、統計モデルとは何か、そして正規分布でデータをモデル化することの本当の意味について、広く保持されている(そして不名誉な)誤解を反映しています。確かに、この投稿が言っていることを信じるなら、二項分布を正規分布で近似することは「確かに間違っている」でしょう。(編集:元のクレームをはるかに正確で便利なクレームに変更したため、ダウン票を削除しました。)
whuber

4
それは、「優れた」という意味に依存します。モデルのコストの一部は、モデルの実装にかかるコストにあります。切り捨てられた標準モデルを採用する場合、おそらく迅速で簡単な、おそらく美しく正確な分析計算ではなく、多くのカスタム数値計算に専念することになります。モデルのもう1つの目的は、洞察を提供することです。「自然がこれらの仮定と少なくともほぼ同じように振る舞う場合、それらの仮定からどのような結果を推測できるか」と考えます。多くの場合、単純な近似を使用すると、このような推論が容易になります。
whuber

2
@whuber:「美しく正確な」後、私は精神的に「間違った」を追加しました。ごめんなさい。もちろん、Boxごとに「しかし便利」でもあります。
ステファンKolassa

2
データが非整数値で構成されていても?
ケビン・リー

19

「私のケースに68-95-99.7を適用する正しい方法は何ですか?」

(1)全体の(無限の)母集団または理論的な確率分布を見ている場合、および(2)分布が正確に正規である場合にのみ、カバレッジの経験則が正確に適用されることを期待する必要があります。

サイズ20のランダムサンプルを真の正規分布から取得しても、データの95%(20項目のうち19)が平均の2(または1.960)標準偏差内にあるとは限りません。実際、20項目のうち19が母平均の1.960母標準偏差内にあることも、20項目のうち19が標本平均の1.960サンプル標準偏差内にあることも保証されていません。

完全に正規分布していない分布からデータのサンプルを取得する場合、68-95-99.7ルールが正確に適用されることを期待しません。しかし、特にサンプルサイズが大きい場合(サンプルサイズが1000未満の場合、「99.7%カバレッジ」の経験則は特に意味がないかもしれません)、分布は正規にかなり近い場合、そうすることにかなり近づきます。理論的には、身長や体重などの多くのデータは正確な正規分布から得られないか、またはそれらが負である小さいがゼロではない確率を意味します。それにも関わらず、中間値がより一般的であり、極端に高い値または低い値の確率が低下する、ほぼ対称で単峰性の分布をもつデータの場合、正規分布のモデルは実際的な目的に適しています。ヒストグラムがベル型の曲線を示している場合、データは正規分布していると言えますか?

1/k2k平均からの標準偏差。これにより、データの少なくとも75%が平均の2つの標準偏差内にあり、89%が3つの標準偏差内にあることが保証されます。ただし、これらの数値は理論的に保証された最小値です。ほぼベル型の分布の多くでは、2標準偏差のカバレッジ値が75%よりも95%にはるかに近くなるため、正規分布からの「経験則」が依然として有用であることがわかります。一方、データが釣鐘型に近い分布に由来する場合、データをより適切に記述し、別のカバレッジルールを持つ代替モデルを見つけることができます。

(68-95-99.7ルールに関する素敵な1つの事は、それが適用されるということです任意の平均値や標準偏差のためにそのパラメータに関係なく、正規分布。同様に、チェビシェフの不等式は、パラメータ、または均一な分布に関係なく適用されます、しかしのみしかし、たとえば、切り捨てられた正規モデルまたはスキュー正規モデルを適用する場合、「68-95-99.7」カバレッジの単純な同等物はありません。これは、分布のパラメータに依存するためです。 )


7

これを正しい方法で使用しているかどうかを誰かが理解するのに役立ちますか?

ああ、それは簡単です。いいえ、正しく使用していません。

まず、かなり小さなデータセットを使用しています。このサイズセットから統計的動作をいじろうとすることは確かに可能ですが、信頼限界は(かなり)大きくなります。小さいデータセットの場合、予想される分布からの偏差はコースに対して同等であり、セットが小さいほど問題は大きくなります。「平均の法則は、最もとんでもない偶然を許すだけでなく、それらを必要とします。」

さらに悪いことに、使用している特定のデータセットは、正規分布とはあまり似ていません。考えてみてください。平均.498で、0.1未満の2つのサンプルがあり、さらに.748以上で3つのサンプルがあります。次に、.17から.22の間の3点のクラスターを取得します。この特定のデータセットを見て、それが正規分布でなければならないと主張することは、プロクルスタンの議論のかなり良いケースです。それはあなたにとってベルカーブのように見えますか?より大きな母集団が正規分布または修正された正規分布に従うことは完全に可能であり、より大きなサンプルサイズで問題に対処しますが、特に母集団について詳しく知らない限り、それには賭けません。

ケビン・リーが指摘したように、技術的には正規分布なので、修正正規と言いますはすべての実数が含まれるます。彼の答えに対するコメントでも指摘されているように、これは限られた範囲でそのような分布を適用し、有用な結果を得ることを妨げない。ことわざにあるように、「すべてのモデルが間違っています。一部は有用です。」

ただし、この特定のデータセットは、(限られた範囲であっても)正規分布を推測することは特に良い考えではありません。10個のデータポイントが.275、.325、.375、.425、.475、.525、.575、.625、.675、.725(平均0.500)のように見える場合、正規分布を仮定しますか?


私は自分のニーズや問題を説明できるようにするには、ランダムなデータを使用していた
ドン・コーダ

1
@DonCoderランダムデータ(何らかの方法で調整しない限り)は、正規分布ではなく均一分布に従います。
バリーカーター

5
ランダムデータは、何らかの分布から生成される必要があります。あなたはどちらを選びましたか?
ピーターフロム-モニカの復職

私は私の本当のデータのヒストグラム追加した
ドンCoderの

2

コメントの1つで、「ランダムデータ」を使用したと言いましたが、どの分布から言ったかはわかりません。あなたが人間の身長について話している場合、それらはほぼ正規分布していますが、あなたのデータは人間の身長に対してリモートでは適切ではありません-あなたの身長はほんの数センチです!

また、データはリモートでは正常ではありません。境界が0と1の一様分布を使用していると思います。そして、非常に小さなサンプルを生成しました。より大きなサンプルで試してみましょう。

set.seed(1234)  #Sets a seed
x <- runif(10000, 0 , 1)
sd(x)  #0.28

そのため、データの境界を超えているため、平均から2 sdを超えるデータはありません。また、1 sd以内の部分は約0.56になります。


1

多くの場合、サンプルはすべて正でなければならないという制約がある場合、データの対数を調べて、分布が対数正規分布で近似できるかどうかを確認する価値があります。


1

標準偏差の計算は、平均に相対的です。常に正の数値に標準偏差を適用できますか?絶対に。サンプルセットの各値に1000を追加すると、同じ標準偏差値が表示されますが、ゼロよりも大きな呼吸空間が得られます。

s==1Nバツバツ¯2N1==1Nバツ+kバツ¯+k2N1

ただし、データに任意の定数を追加することは表面的です。非常に小さいデータセットに標準偏差を使用する場合、未精製の出力を期待する必要があります。オートフォーカスカメラレンズのような標準偏差を考慮してください。時間(データ)を多く与えるほど、画像は鮮明になります。1000000個のデータポイントを追跡した後、平均値と標準偏差が10の場合と同じままである場合、実験の妥当性について疑問を持ち始める可能性があります。



1

主なポイントは、私たちの多くは怠け者*であり、正規分布は私たちの怠け者にとっては便利だということです。正規分布を使用した計算は簡単で、数学的な基礎があります。そのため、データの操作方法の「モデル」です。このモデルは多くの場合驚くほどうまく機能し、時にはその表面が平らになります。

サンプルがデータの正規分布を示していないことは非常に明白です。あなたのジレンマに対する解決策は、異なる「モデル」を選択し、異なるディストリビューションで作業することです。ワイブル分布は方向性があり、他にもあります。

  • 本当にデータを知ることができず、必要に応じてより良いモデルを選択することに怠慢です。

0

基本的に、間隔データではなく比率データを使用しています。地理学者は、特定の場所(たとえばLAシビックセンターでの100年以上のサンプルポイント)または降雪(ビッグベアーレイクでの100年以上の降雪サンプル)の年間降雨量のS / Dを計算するときに、これを常に実行します。正の数しか持つことができません、それはそうです。


0

気象学では、風速の分布はこのように見えます。定義上、風速も負ではありません。

だから、あなたの場合、私は間違いなくワイブル分布を見ます。


0

データが明らかに正規分布ではない場合、「正規分布に従う」ことから始めます。それが最初の問題です。「正規分布であるかどうかは関係ありません」と言います。これはまったくナンセンスです。データが正規分散されていない場合、正規分散データに関するステートメントは使用できません。

そして、あなたは文を誤解します。「99.7%は3つの標準偏差内でなければなりません」。そして、データの99.7%は実際に3つの標準偏差内でした。さらに良いことに、2つの標準偏差内で100%でした。したがって、このステートメントは真実です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.