正常性とは何ですか?


回答:


29

正規性の仮定は、対象となる基になるランダム変数正規分布、またはほぼ分布しているという仮定にすぎません。直観的に、正常性は、多数の独立したランダムなイベントの合計の結果として理解される場合があります。

より具体的には、正規分布は次の関数によって定義されます。

代替テキスト

どこσ 2は、それぞれ、平均と分散しており、次のように表示されています:μσ2

代替テキスト

これは複数の方法で確認できます。nのサイズなどの機能により、問題に多少なりとも適している場合があります。基本的に、それらはすべて、分布が正常である場合に予想される機能をテストします(予想される分位分布など)。



10

エラーの通常の仮定(または、データに関する予備知識がない場合は、より一般的なデータ)に関する関連する質問をここで見つけることができます。

基本的に、

  1. 正規分布を使用すると数学的に便利です。(最小二乗法に関連しており、疑似逆行列で簡単に解決できます)
  2. 中心極限定理により、プロセスに影響を与える多くの潜在的な事実があり、これらの個々の効果の合計が正規分布のように振る舞う傾向があると仮定する場合があります。実際にはそうです。

そこからの重要な注意点は、Terence Taoがここで述べているように、「大まかに言って、この定理は、全体に決定的な影響を与える1つのコンポーネントがなく、多くの独立したランダムに変動するコンポーネントの組み合わせである統計を取る場合、 、その統計は正規分布と呼ばれる法則に従ってほぼ分布します」。

これを明確にするために、Pythonコードスニペットを作成しましょう

# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem

@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""

import scipy, scipy.stats
import numpy as np
import pylab

#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random

y = y / sum(y);

N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)

# Plotting details 
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])

#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
    y = np.convolve(y,y)
    y = y / sum(y);    

    x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
    ax = pylab.subplot(N+1,1,i+1)
    pylab.plot(x,y)
    ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
    ax.set_xticks([2**i * 10])
    ax.set_yticks([round(np.max(y),3)])

pylab.show()

ランダム分布

指数分布

均一な分布

図からわかるように、結果の分布(合計)は、個々の分布タイプに関係なく正規分布に向かう傾向があります。したがって、データの根本的な効果に関する十分な情報がない場合、正規性の仮定は妥当です。


1
CLTはありませんできるよう、私たちがしている場合-私たちは、任意のプロセス内の個々の効果がたくさんあると仮定して与えすぎ合計のを持ってどれも測定に貢献-すぎに依存しない個別要因(がたくさんあることをバリエーション)、CLTを呼び出すことで正常性を仮定することを正当化できます。多くの貢献の前提はCLTの適用に先行しますが、CLTの結果ではありません。さもなければ、実際にはそれが時々おおまかにしか真実でないとき、すべては正常です。
Glen_b-モニカを復元する14

5

正常性があるかどうかわからないので、そこにある仮定をしなければなりません。統計検定でのみ正常性の欠如を証明できます。

さらに悪いことに、現実世界のデータを操作する場合、データに真の正規性がないことはほぼ確実です。

つまり、統計検定は常に少し偏っています。問題は、その偏見に耐えられるかどうかです。そのためには、データと統計ツールが想定する正規性の種類を理解する必要があります。

これが、フリークエンティストツールがベイジアンツールと同じくらい主観的である理由です。正規分布しているデータに基づいて判断することはできません。あなたは正常性を仮定する必要があります。


5
統計を使用して何も証明できません。証明は正確であることを意図しています。統計は確率に関するものです。カイ二乗のap = 0.99の結果でさえ、基礎となる分布が正規でないことを「証明」しません。それが正常であるということはありそうもないことです。
xmjx

@xmjx:特定の分布がおそらく正規分布であるとは言えません。値の99.99%が1であるが、値の0.01%が1000000である分布がある場合、100個の値をサンプリングする統計検定は、分布が正規分布していると誤って伝える可能性が高くなります。
クリスチャン

2
私は統計の専門家ではないので、これはばかげた質問のように思えるかもしれません...データではなく変数を生成する基礎となるプロセスに「真の正常性」は存在しませんか?それは馬鹿げた区別のように見えるかもしれませんが、おそらくそれはいくつかの魂の検索を保存することができます。収集されたデータが完全に正常ではないが、基になるランダムプロセスが基本的に通常の方法で機能している場合、「バイアスに耐える」ことを決定できる状況でしょうか。
ジョナサン

@Christian-「... 100個の値には十分なチャンスがある...」というコメントは、私のハッキングによってまったく裏付けられません:x = c(rep(1,99)、rep(1000000,1)); ks.test(x、pnorm)>正規性の仮定は、KSテストによって依然として「拒否」されています。
rolando2

私はこの回答(+1)が好きですが、正規性を仮定して何ができるかについては少し悲観的です。これは通常、すべてのモデリングの出発点として適切であり、正規分布確率変数の混合または関数を使用することにより、非常に広範な分布クラスに一般化できます。
確率論的

4

正規性の仮定では、データが正規分布(釣鐘曲線、またはガウス分布)であることを前提としています。これを確認するには、データをプロットするか、尖度(ピークの鋭さ)と歪度(?)(データの半分以上がピークの片側にある場合)の測定値を確認します。


2
正常性の仮定を満たすために、どの程度の尖度と歪度が許容されますか?
ライオン

5
ほとんどの統計的手法では、データではなく正規性を仮定しますが、線形回帰の誤差項などの確率変数を仮定します。チェックには、元のデータではなく、残差の確認が含まれます!

3

他の答えは、正常性とカバーする正常性テスト方法をカバーしています。クリスチャンは、実際には完全な正常性はほとんど存在しないことを強調しました。

観測された正規性からの逸脱は、正規性を仮定した方法が必ずしも使用されない可能性があり、正規性テストはあまり有用ではないことを強調しています。

  1. 正常からの逸脱は、データ収集のエラーに起因する外れ値によって引き起こされる場合があります。多くの場合、データ収集ログを確認することで、これらの数値を修正でき、正常性が向上することがよくあります。
  2. 大規模なサンプルの場合、正規性テストでは、正規性からの無視できる偏差を検出できます。
  3. 正規性を前提とする方法は、非正規性に対してロバストであり、許容可能な精度の結果を提供します。t検定はこの意味でロバストであることが知られていますが、F検定はソースではありませんパーマリンク。特定の方法に関しては、堅牢性に関する文献を確認することをお勧めします。

1
正規性が良い仮定である理由は、データの相対的な使用不足によるものだと思います-最初の2つのモーメントのみが正規分布での推定に使用されます。これにより、最小二乗モデルの診断チェックが非常に簡単になります。基本的には、十分な統計に影響を与える可能性のある外れ値を探すだけです。
確率論的

3

Y=μ+Xβ+ϵϵσ2ϵ

この3つの仮定のうち、2)と3)は1)よりも大部分がより重要です!ですから、あなたは彼らにもっと没頭するべきです。ジョージ・ボックスは、「変動に関する予備試験を行うことは、オーシャン・ライナーが港を出るのに十分穏やかな状態であるかどうかを調べるために、手boatぎボートで海に行くことに似ています!」-[ボックス、「 -正規性と分散に関するテスト」、1953年、Biometrika 40、pp。318-335] "

これは、不等分散が大きな懸念事項であることを意味しますが、実際にはそれらのテストは非常に困難です。なぜなら、テストは平均のテストにとって重要ではないほど小さい非正規性の影響を受けるからです 今日では、DEFINITELYを使用する必要がある不等分散のノンパラメトリックテストがあります。

要するに、まず不平等な分散について、次に正常性について自分自身に専念します。それらについて自分で意見を述べたら、正常性について考えることができます!

ここにたくさんの良いアドバイスがあります:http : //rfd.uoregon.edu/files/rfd/StatisticalResources/glm10_homog_var.txt


私の解釈が正しいと確信しています。Boxはこれについて、Box、Hunter&Hunter:Statistics for Experimentalersにも詳しく書いています。しかし、今私は、私が書いたものが私が意図したものではなく、...それから正常性について言うべきであることがわかりました!不等分散は、正規性よりもはるかに重要です。もちろん、独立はすべての仮定の母です。
kjetil bハルボルセン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.