回答:
あなたは正しい考えを持っています。これは、体系的、包括的に、比較的単純な計算で実行できます。結果のグラフは、正規確率プロット(またはPPプロット)と呼ばれます。それから、他のグラフィック表現、特にヒストグラムに表示されるよりもはるかに詳細を見ることができ、少し練習すれば、データを再表現する方法を決定して、それが保証される状況でデータを標準に近づけることができます。
以下に例を示します。
データは列にありますA
(名前はData
)。残りはすべて計算ですが、基準線をプロットに合わせるために使用される「ヒンジランク」値を制御できます。
このプロットは、標準正規分布から独立して描画された数値によって得られる値とデータを比較する散布図です。点が対角線に沿って並ぶと、それらは標準に近くなります。(データ軸に沿った)水平方向の逸脱は、正常からの逸脱を示します。この例では、ポイントは基準線に非常に近くなっています。最大の逸脱は最大値で発生します。これは、行の左側に約ユニットあります。したがって、これらのデータは正規分布に非常に近いが、おそらくわずかに「軽い」右テールを持つことが一目でわかります。これは、t検定を適用するのにまったく問題ありません。
縦軸の比較値は2つのステップで計算されます。最初に、各データ値はデータの量であるからまでランク付けされます(セルのフィールドに表示)。これらは比例範囲内の値に変換され、に。使用する適切な式は、 (http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htmを参照してください)。これらは関数を介して標準の標準値に変換されます。これらの値は列に表示されます。右側のプロットは、次のXY散布図です。0 1 (ランク- 1 / 6 )/ (N + 2 / 3 )。Count
F2
NormSInv
Normal score
Normal Score
データに対して。(いくつかの参考文献では、おそらくより自然なこのプロットの転置を見ることができますが、Excelは一番左の列を水平軸に、一番右の列を垂直軸に配置することを好むので、好きなことをさせました。 )
(ご覧のとおり、これらのデータは、平均と標準偏差正規分布からの独立したランダム描画でシミュレートしました。したがって、確率プロットが非常に見栄えが良いことは驚くことではありません。)データを一致させるために下方に伝播します。セルに表示され、cellで計算された値に依存します。プロット以外は、これですべてです。B2:C2
Count
F2
このシートの残りの部分は必要ありませんが、プロットを判断するのに役立ちます。参照線の堅牢な推定値を提供します。これは、プロットの左右から均等に遠く離れた2つのポイントを選択し、それらを線で接続することで実行されます。例では、これらのポイントは、セル内のによって決定されるように、3番目に低く、3番目に高いです。おまけとして、その勾配と切片は、それぞれデータの標準偏差と平均の堅牢な推定値です。Hinge Rank
F3
基準線をプロットするために、2つの極値が計算され、プロットに追加されます。それらの計算は、列I:J
、ラベルX
、およびで行われますY
。
Excelのデータ分析ツールパックを使用して、ヒストグラムをプロットできます。グラフィカルなアプローチは、非正規性の程度を伝える可能性が高く、これは通常、仮定テストにより関連性があります(この正規性の説明を参照してください)。
Excelのデータ分析ツールパックでは、記述統計を求めて「要約統計」オプションを選択した場合、歪度と尖度も得られます。たとえば、プラスまたはマイナス1を超える歪度の値は、実質的な非正規性の一形態であると考えることができます。
とはいえ、t検定の仮定は、残差は変数ではなく正規分布しているということです。さらに、非常に堅牢であるため、かなりの量の非正規であっても、p値は依然としてかなり有効です。
この質問は統計理論にも当てはまります-限られたデータで正規性をテストすることは疑問の余地があります(私たちは皆これを時々行っていますが)。
別の方法として、尖度係数と歪度係数を調べることができます。ハーンとシャピロから:工学の統計モデルいくつかの背景は、プロパティBeta1とBeta2(ページ42から49)およびページ197の図6-1で提供されています。
基本的に、いわゆるプロパティBeta1およびBeta2を計算する必要があります。Beta1 = 0およびBeta2 = 3は、データセットが正常に近づいていることを示しています。これは大まかなテストですが、データが限られているため、どのテストも大まかなテストと見なすことができます。
Beta1は、それぞれモーメント2と3、または分散と歪度に関連しています。Excelでは、これらはVARとSKEWです。...はデータ配列です。式は次のとおりです。
Beta1 = SKEW(...)^2/VAR(...)^3
Beta2は、それぞれモーメント2と4、または分散と尖度に関連しています。Excelでは、これらはVARとKURTです。...はデータ配列です。式は次のとおりです。
Beta2 = KURT(...)/VAR(...)^2
次に、これらの値をそれぞれ0と3の値に対してチェックできます。これには、他の分布(ピアソン分布I、I(U)、I(J)、II、II(U)、III、IV、V、VI、VIIを含む)を潜在的に識別するという利点があります。たとえば、Uniform、Normal、Studentのt、Beta、Gamma、Exponential、Log-Normalなどの一般的に使用される分布の多くは、次のプロパティから指定できます。
Where: 0 <= Beta1 <= 4
1 <= Beta2 <= 10
Uniform: [0,1.8] [point]
Exponential: [4,9] [point]
Normal: [0,3] [point]
Students-t: (0,3) to [0,10] [line]
Lognormal: (0,3) to [3.6,10] [line]
Gamma: (0,3) to (4,9) [line]
Beta: (0,3) to (4,9), (0,1.8) to (4,9) [area]
Beta J: (0,1.8) to (4,9), (0,1.8) to [4,6*] [area]
Beta U: (0,1.8) to (4,6), [0,1] to [4.5) [area]
Impossible: (0,1) to (4.5), (0,1) to (4,1] [area]
Undefined: (0,3) to (3.6,10), (0,10) to (3.6,10) [area]
Values of Beta1, Beta2 where brackets mean:
[ ] : includes (closed)
( ) : approaches but does not include (open)
* : approximate
これらをハーンとシャピロの図6-1に示します。
これは非常に大まかなテスト(いくつかの問題を伴う)ですが、より厳密な方法に進む前に、予備チェックとして検討することをお勧めします。
データが限られているBeta1およびBeta2の計算に対する調整メカニズムもありますが、それはこの投稿を超えています。