経験的測定値の「正規分布を仮定した」と書いてもよいですか。


9

人口などの生物医学的量の測定が通常の「ベルカーブ」に従うことは、医学などの応用分野の教育に根付いています。文字列のA Google検索「我々は正規分布と仮定」リターンをの結果を!気候変動に関する研究では、「極端なデータポイントの数が少ない場合は、温度異常の正規分布を想定した」ように聞こえます。または、ペンギンに関する異論の少ない可能性のある文書で「ニワトリの孵化日の正規分布を仮定した」。または 「GDP成長ショックの正規分布を想定」23,900、 ... と他のこと)。

最近、私はカウントデータの厳密に肯定的な性質のために正規分布としての扱いに疑問を感じました。もちろん、カウントデータは離散的であるため、正規性はさらに人為的になります。しかし、この後者の点を別にしても、原型的に「連続的」と見なされる、グルコースの重量、高さ、または濃度などの連続的な経験的測定が正常と見なされるのはなぜですか?カウントがする以上に否定的な実現観察はあり得ません!

標準偏差が平均より大幅に低く、負の値がほとんどない場合( "95%範囲チェック")、それは実際的な仮定である可能性があり、頻度ヒストグラムが歪んでいない場合はそれをサポートします。しかし、質問は些細なことのように思われませんでした、そして迅速な検索は興味深いものを見つけました。

自然我々は、上の次のステートメントを見つけることができDFヒースによって手紙を「私は特定のタイプのデータの統計的分析のためのデータを正規母集団から引き出されていることを仮定は通常間違っている、との代替ということを指摘したいです対数正規分布の仮定の方が優れています。この代替手段は統計学者、経済学者、物理学者に広く使用されていますが、他の分野の科学者には何らかの理由で無視されることがよくあります。」

Limpertは、「対数正規モデルは現在多くの科学者が正規を有効な近似として認識しているという意味での近似として機能する可能性がある」と述べ、正規性の適合度テストの低い検出力と選択の難しさを指摘しています。小さなサンプルを扱う場合、経験的に正しい分布。

したがって、問題は「応用科学の実証的測定値の正規分布をさらに裏付けとなる証拠なしに仮定することはいつ受け入れられるのか」ということです。そして、なぜ対数正規のような他の代替案がなぜ、そしておそらくおそらく定着しないのでしょうか?


答えは、どのようなことをしているのか、および正規性からの潜在的な逸脱に対する感度です(つまり、比率のF検定を使用して分散の等値をテストしている場合は、次のような分布になるはずです。正常に非常に近い...しかし、大きなサンプルで平均の差のt間隔を作成している場合は、それらを正規性に非常に近づける必要はない場合があります)。...そして、それがあなたがしている推論にどのような影響を与えるかについてのあなたの許容範囲(またはあなたの聴衆のもの)に。
Glen_b-2016

回答:


6

あなたの質問は本当に面白いと思います。いくつかのことを考慮に入れましょう:

  1. 実際に連続的に測定することは非常に難しいので、観測された変数が実生活で連続的であると言うことは、常に一種の間違っています。
  2. N(μ,σ2)(;+)fX(x)x=μσx=μ+σ
  3. XY=log(X)

そうは言っても、観測された変数が正規分布に従うか、対数正規分布が狂ったように聞こえるということです。実際には、その変数が正規分布(または他の分布)の母集団からのものである場合、観測された周波数と期待される周波数の偏差を測定します。あなたがサンプリングされているため、これらの偏差は、単にランダムであると言うことができる場合のように、あなたは何かを言うことができます。この変数は正規母集団から来ている帰無仮説を棄却する十分な証拠がありませんに翻訳され、我々は(あるかのように動作しますが、と仮定して)変数は正規分布に従います

あなたの最初の質問に答えて、変数がさらなる証拠なしに正規分布していると仮定されていると言う大胆な誰かがいるとは思いません。そのようなことを言うには、少なくともqqプロット、ヒストグラム、適合度検定、またはそれらの組み合わせが必要です。

χ2


多くのキーポイントに触れているあなたの答えをありがとう。しかし、私は応用科学の「現実世界」にあるものはあまり構造化されていないと考えがちであり、直接的な接線はしばしば正常であると見なされます。
Antoni Parellada 2016年

1
私が言及しなかったのは、正規分布の場合の歴史の他の部分です。これは、中央極限の定理で述べられているように、iid確率変数の和の標準化の極限分布です。ブラウン運動の背後にある推論のように、変数が多くのiid確率変数の合計であると言える場合、それは通常の確率変数であると言えます。それが私が知っている唯一の有効なショートカットです。必要に応じてこれを回答に含めることができます。
トーンロイ2016年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.