回答:
エラーの通常の仮定(または、データに関する予備知識がない場合は、より一般的なデータ)に関する関連する質問をここで見つけることができます。
基本的に、
そこからの重要な注意点は、Terence Taoがここで述べているように、「大まかに言って、この定理は、全体に決定的な影響を与える1つのコンポーネントがなく、多くの独立したランダムに変動するコンポーネントの組み合わせである統計を取る場合、 、その統計は正規分布と呼ばれる法則に従ってほぼ分布します」。
これを明確にするために、Pythonコードスニペットを作成しましょう
# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem
@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""
import scipy, scipy.stats
import numpy as np
import pylab
#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random
y = y / sum(y);
N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)
# Plotting details
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])
#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
y = np.convolve(y,y)
y = y / sum(y);
x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
ax = pylab.subplot(N+1,1,i+1)
pylab.plot(x,y)
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_xticks([2**i * 10])
ax.set_yticks([round(np.max(y),3)])
pylab.show()
図からわかるように、結果の分布(合計)は、個々の分布タイプに関係なく正規分布に向かう傾向があります。したがって、データの根本的な効果に関する十分な情報がない場合、正規性の仮定は妥当です。
正常性があるかどうかわからないので、そこにある仮定をしなければなりません。統計検定でのみ正常性の欠如を証明できます。
さらに悪いことに、現実世界のデータを操作する場合、データに真の正規性がないことはほぼ確実です。
つまり、統計検定は常に少し偏っています。問題は、その偏見に耐えられるかどうかです。そのためには、データと統計ツールが想定する正規性の種類を理解する必要があります。
これが、フリークエンティストツールがベイジアンツールと同じくらい主観的である理由です。正規分布しているデータに基づいて判断することはできません。あなたは正常性を仮定する必要があります。
他の答えは、正常性とカバーする正常性テスト方法をカバーしています。クリスチャンは、実際には完全な正常性はほとんど存在しないことを強調しました。
観測された正規性からの逸脱は、正規性を仮定した方法が必ずしも使用されない可能性があり、正規性テストはあまり有用ではないことを強調しています。
この3つの仮定のうち、2)と3)は1)よりも大部分がより重要です!ですから、あなたは彼らにもっと没頭するべきです。ジョージ・ボックスは、「変動に関する予備試験を行うことは、オーシャン・ライナーが港を出るのに十分穏やかな状態であるかどうかを調べるために、手boatぎボートで海に行くことに似ています!」-[ボックス、「 -正規性と分散に関するテスト」、1953年、Biometrika 40、pp。318-335] "
これは、不等分散が大きな懸念事項であることを意味しますが、実際にはそれらのテストは非常に困難です。なぜなら、テストは平均のテストにとって重要ではないほど小さい非正規性の影響を受けるからです 今日では、DEFINITELYを使用する必要がある不等分散のノンパラメトリックテストがあります。
要するに、まず不平等な分散について、次に正常性について自分自身に専念します。それらについて自分で意見を述べたら、正常性について考えることができます!
ここにたくさんの良いアドバイスがあります:http : //rfd.uoregon.edu/files/rfd/StatisticalResources/glm10_homog_var.txt