t検定を実行するためにExcelを使用して正規分布を確認する方法は?


21

t検定を使用するための要件が​​満たされていることを確認するために、Excelでデータセットの正規性を確認する方法を知りたいです。

右尾については、平均と標準偏差を計算し、平均から1、2、3標準偏差を加算して範囲を作成し、使用後の標準正規分布の正規68/95 / 99.7と比較するのが適切ですか?各標準偏差値をテストするには、Excelのnorm.dist関数を使用します。

または、正常性をテストするより良い方法はありますか?


回答:


15

あなたは正しい考えを持っています。これは、体系的、包括的に、比較的単純な計算で実行できます。結果のグラフは、正規確率プロット(またはPPプロット)と呼ばれます。それから、他のグラフィック表現、特にヒストグラムに表示されるよりもはるかに詳細を見ることができ、少し練習すれば、データを再表現する方法を決定して、それが保証される状況でデータを標準に近づけることができます。

以下に例を示します。

確率プロット付きスプレッドシート

データは列にありますA(名前はData)。残りはすべて計算ですが、基準線をプロットに合わせるために使用される「ヒンジランク」値を制御できます。

このプロットは、標準正規分布から独立して描画された数値によって得られる値とデータを比較する散布図です。点が対角線に沿って並ぶと、それらは標準に近くなります。(データ軸に沿った)水平方向の逸脱は、正常からの逸脱を示します。この例では、ポイントは基準線に非常に近くなっています。最大の逸脱は最大値で発生します。これは、行の左側に約ユニットあります。したがって、これらのデータは正規分布に非常に近いが、おそらくわずかに「軽い」右テールを持つことが一目でわかります。これは、t検定を適用するのにまったく問題ありません。1.5

縦軸の比較値は2つのステップで計算されます。最初に、各データ値はデータの量であるからまでランク付けされます(セルのフィールドに表示)。これらは比例範囲内の値に変換され、に。使用する適切な式は、 (http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htmを参照してください)。これらは関数を介して標準の標準値に変換されます。これらの値は列に表示されます。右側のプロットは、次のXY散布図です。1n0 1 ランク- 1 / 6 / N + 2 / 3 CountF201(rank1/6)/(n+2/3).NormSInvNormal scoreNormal Scoreデータに対して。(いくつかの参考文献では、おそらくより自然なこのプロットの転置を見ることができますが、Excelは一番左の列を水平軸に、一番右の列を垂直軸に配置することを好むので、好きなことをさせました。 )

スプレッドシート:通常のスコア計算

(ご覧のとおり、これらのデータは、平均と標準偏差正規分布からの独立したランダム描画でシミュレートしました。したがって、確率プロットが非常に見栄えが良いことは驚くことではありません。)データを一致させるために下方に伝播します。セルに表示され、cellで計算された値に依存します。プロット以外は、これですべてです。52B2:C2CountF2

このシートの残りの部分は必要ありませんが、プロットを判断するのに役立ちます。参照線の堅牢な推定値を提供します。これは、プロットの左右から均等に遠く離れた2つのポイントを選択し、それらを線で接続することで実行されます。例では、これらのポイントは、セル内の3によって決定されるように、3番目に低く、3番目に高いです。おまけとして、その勾配と切片は、それぞれデータの標準偏差と平均の堅牢な推定値です。Hinge RankF3

基準線をプロットするために、2つの極値が計算され、プロットに追加されます。それらの計算は、列I:J、ラベルX、およびで行われますY

スプレッドシート:基準線の計算


列Bの式について、1を追加して6と3で除算する理由を説明します(「+ 1/6」と「+ 1/3」)。また、ヒンジランクセルで6で割ることを選択した理由はありますか?

1/6100×1/6100×5/601/21/40.16

式(ランク+ 1/6)/(n + 1/3)は、予想されるように対称的ではないようです。たとえば、中間の観測値が3の場合、ランクは2であり、これは、中間の観測値(0.5)に自然と思われるものではなく、0.65の対応するパーセンタイルを示唆します。明らかな何かを見逃しましたか?[Tukeyが(i-1 / 3)/(n + 1/3)を含むいくつかの異なる式を異なる場所で使用するのを見てきました。リンクの式は一般的な(ia)/(n + 1-2a)スキームに適合しますが、回答で指定した式は
適合

ran+12a
r1na011/6r1/6/n+2/3a=1/3
whuber

5

Excelのデータ分析ツールパックを使用して、ヒストグラムをプロットできます。グラフィカルなアプローチは、非正規性の程度を伝える可能性が高く、これは通常、仮定テストにより関連性があります(この正規性の説明を参照してください)。

Excelのデータ分析ツールパックでは、記述統計を求めて「要約統計」オプションを選択した場合、歪度と尖度も得られます。たとえば、プラスまたはマイナス1を超える歪度の値は、実質的な非正規性の一形態であると考えることができます。

とはいえ、t検定の仮定は、残差は変数ではなく正規分布しているということです。さらに、非常に堅牢であるため、かなりの量の非正規であっても、p値は依然としてかなり有効です。


4

この質問は統計理論にも当てはまります-限られたデータで正規性をテストすることは疑問の余地があります(私たちは皆これを時々行っていますが)。

別の方法として、尖度係数と歪度係数を調べることができます。ハーンとシャピロから:工学の統計モデルいくつかの背景は、プロパティBeta1とBeta2(ページ42から49)およびページ197の図6-1で提供されています。

基本的に、いわゆるプロパティBeta1およびBeta2を計算する必要があります。Beta1 = 0およびBeta2 = 3は、データセットが正常に近づいていることを示しています。これは大まかなテストですが、データが限られているため、どのテストも大まかなテストと見なすことができます。

Beta1は、それぞれモーメント2と3、または分散と歪度に関連しています。Excelでは、これらはVARとSKEWです。...はデータ配列です。式は次のとおりです。

Beta1 = SKEW(...)^2/VAR(...)^3

Beta2は、それぞれモーメント2と4、または分散と尖度に関連しています。Excelでは、これらはVARとKURTです。...はデータ配列です。式は次のとおりです。

Beta2 = KURT(...)/VAR(...)^2

次に、これらの値をそれぞれ0と3の値に対してチェックできます。これには、他の分布(ピアソン分布I、I(U)、I(J)、II、II(U)、III、IV、V、VI、VIIを含む)を潜在的に識別するという利点があります。たとえば、Uniform、Normal、Studentのt、Beta、Gamma、Exponential、Log-Normalなどの一般的に使用される分布の多くは、次のプロパティから指定できます。

Where:   0 <= Beta1 <= 4
         1 <= Beta2 <= 10 

Uniform:        [0,1.8]                                 [point]
Exponential:    [4,9]                                   [point] 
Normal:         [0,3]                                   [point]
Students-t:     (0,3) to [0,10]                         [line]
Lognormal:      (0,3) to [3.6,10]                       [line]
Gamma:          (0,3) to (4,9)                          [line]
Beta:           (0,3) to (4,9), (0,1.8) to (4,9)        [area]
Beta J:         (0,1.8) to (4,9), (0,1.8) to [4,6*]     [area]
Beta U:         (0,1.8) to (4,6), [0,1] to [4.5)        [area]
Impossible:     (0,1) to (4.5), (0,1) to (4,1]          [area]
Undefined:      (0,3) to (3.6,10), (0,10) to (3.6,10)   [area]

Values of Beta1, Beta2 where brackets mean:

[ ] : includes (closed)
( ) : approaches but does not include (open)
 *  : approximate 

これらをハーンとシャピロの図6-1に示します。

これは非常に大まかなテスト(いくつかの問題を伴う)ですが、より厳密な方法に進む前に、予備チェックとして検討することをお勧めします。

データが限られているBeta1およびBeta2の計算に対する調整メカニズムもありますが、それはこの投稿を超えています。


この資料の多くは、大規模なデータセットでうまく機能します。また、小さなデータセットでは正規性テストが制限されるか疑わしいという最初の評価に同意します。しかし、歪度と尖度の大きな変動性を考えると、これらの統計に基づいて基礎となる分布のタイプを識別するための努力はさらに疑わしく、確実性が低いと思われます。その結果、このアプローチは予備チェックとしても(せいぜい)誤解を招かないでしょうか?
whuber

1
おそらく、さらにメソッドを修飾するのが最善です:ハーンとシャピロ(上記参照)は、特にサンプルサイズが200未満の場合、注意を払う必要があることを推奨します。近似分布を実際のデータと比較します。しかし、私の見解では、データが可能性の範囲内でどこに置かれるかを示唆できる便利な方法です。およそ3000以上のデータセットで使用し、コンピューターシミュレーションソフトウェアに組み込み、有用であることが証明されました。
AsymLabs

3000以上のデータセットであなたの方法が有用な情報を提供しているのを見ることができます。ただし、その場合、平均のt検定の適用可能性を評価するために分布テストを実行する必要はありません。
whuber

私のようにこれを有用な手法と見なすか、そうでない場合はあなたの意見のように見えますが、それでも、ピアソンによる正常性のテスト(およびStudent-tアプリケーション)に代わる、早くて長い間確立された(ピアソンによる)代替手段ですこのスレッドのコンテキスト。誤解しないでください。あなたの懸念を認め、同意します。しかし、私たちは両方とも同意しますが、事前情報なしでは、非常に小さなデータサンプルからガウス上で母集団全体をモデル化できるかどうかを確立しようとすることは、どんな方法でもせいぜい暗闇でのショットであり、最悪の場合、危険な。
AsymLabs

1
そのとおり。私が言っているのは、小さなサンプルから母集団がガウス分布であるかどうかをテストするのが危険な場合、歪度と尖度を使用して基礎となる分布を特定することは少なくとも危険でなければならないということです!実際、尖度などの不安定な統計に依存しているため、このような試みは実際には悪化するようです。ピアソンのシステムは、可能性のある分布を特定するのに役立つ強力なガイドになりますが、ヒストグラムなどの限られたグラフィック表示よりも少ない洞察を提供します。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.