仮説検定で尖度の高い尖度が問題になるのはなぜですか？

残差の高正尖度は、正確な仮説検定と信頼区間（したがって統計的推論の問題）にとって問題になる可能性があると聞きました（テキストへのリンクを提供することはできません）。これは本当ですか、もしそうなら、なぜですか？残差の高い正の尖度は、残差の大部分が残差平均0に近いことを示していないので、残差が少ないことがわかりますか（答えがある場合は、数学的にあまり傾いていないので、あまり詳しくない数学で答えてみてください）。

— DDK
ソース

正常（ガウス）誤差項の理想的な条件を持つモデルに焦点を合わせていると思います。（他の多くの状況では、残差の尖度が高いと予想される場合があります。）尖度が高いと、正規分布よりも分布が太くなることを意味する可能性が高いため、残差が非常に高い（+または-）場合があります。ゼロに近いものがたくさんあるとしても、それは良いニュースに過ぎず、注意が必要なのは悪いニュースかもしれません。しかし、それは順番に何でも意味することができます。通常、残差プロットと近似プロットの方が有益です。

— ニックコックス

実際、正規性を仮定したモデルに焦点を合わせていました。

— DDK

回答:

[...]残差の高い正尖度は、正確な仮説検定と信頼区間にとって問題になる可能性がある（したがって、統計的推論の問題）と聞きました。これは本当ですか、もしそうなら、なぜですか？

ある種の仮説検定では、それは事実です。

残差の正の尖度が高くても、残差の大部分が残差平均0に近いことを示さないので、残差が少なくなりますか？

番号。

分散の概念と尖度の概念を混同しているようです。分散が小さければ、小さな残差が多くなり、大きな残差が少なくなる傾向が一緒になります。尖度を変更する間、標準偏差を一定に保つことを想像してください（したがって、分散ではなく尖度の変更について明確に話している）。

異なる分散を比較します（ただし、尖度は同じです）。

尖度は異なりますが、分散は同じです：

（この投稿の画像）

多くの場合、尖度が高いと、平均からの偏差がより小さくなります -正規分布で見つけるよりも小さな残差..しかし、標準偏差を同じ値に保つには、より大きな残差も必要です（より小さな残差があると、平均値からの典型的な距離が小さくなるため）。大きな残差と小さな残差の両方をより多く取得するには、「標準サイズ」の残差、つまり平均から1標準偏差ほど離れた残差を少なくします。 $^\ddagger$

$\ddagger$ それは、「小」をどのように定義するかに依存します。あなたは単にあなたがそれを補うために何かを必要と、大きな残差とホールド分散定数の多くを追加することはできません-しかし、いくつかのために与えられた「小さな」の尺度あなたは、その特定の措置を増大させることなく、尖度を向上させる方法を見つけることができます。（たとえば、尖度が高いと自動的にピークが高くなるとは限りません）

分散を一定にした場合でも、尖度が高くなると、残差が大きくなる傾向があります。

[さらに、場合によっては、小さな残差の集中は、実際に見ているものに応じて、最大の残差の追加部分よりも多くの問題につながる可能性があります。]

とにかく、例を見てみましょう。1サンプルのt検定とサンプルサイズ10を考えます。

t統計量の絶対値が2.262より大きいときに帰無仮説を棄却し、観測値が独立しており、正規分布から同一に分布し、仮説の平均が真の母平均である場合、帰無仮説を棄却します仮説5％の時間。

正規よりも尖度が大幅に高い特定の分布を考えてみましょう。人口の75％が正規分布から値を取得し、残りの25％が標準偏差の50倍の正規分布から値を取得しています。

正しく計算した場合、これは12の尖度（9の過剰尖度）に相当します。結果の分布は、通常よりもはるかにピークに達し、尾が重いです。密度は、下の通常の密度と比較されます-高いピークを見ることができますが、実際には左の画像でより重い尾を見ることができないので、密度の対数もプロットしました。画像と上部を圧縮して、ピークとテールの両方が見やすくなります。

「5％」の1サンプルt検定を実行した場合、この分布の実際の有意水準は0.9％未満です。これは非常に劇的であり、電力曲線を大幅に引き下げます。 $n=10$

（信頼区間のカバレッジに実質的な効果も見られます。）

同じ尖度を持つ異なる分布は、有意水準に異なる影響を与えることに注意してください。

では、なぜ拒否率が下がるのですか？これは、テールが重いといくつかの大きな外れ値が発生し、平均値よりも標準偏差にわずかに大きな影響があるためです。これは、重要な領域の値の割合を減らすプロセスで-1と1の間のt値を増やすため、t統計に影響を与えます。

$H_0$

披露させて。サイズ10のサンプルを次に示します。

 1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 4.23

$H_0: \mu=2$

次に、その最大値を50にします。

      1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 50

明らかに平均を引き上げているので、以前よりもさらに違いを示しているはずですよね？まあ、いいえ、そうではありません。t統計が低下します。現在は1.106であり、p値は非常に大きい（30％に近い）。どうした？さて、平均値を（7.257まで）引き上げましたが、標準偏差は15を超えました。

標準偏差は、平均よりも外れ値の影響を受けやすいため、外れ値を入力すると、1サンプルのt統計量が1または-1に近付く傾向があります。

いくつかの外れ値が発生する可能性がある場合、反対側にある場合にのみ同じことが起こります（この場合、1つの外れ値と比較して平均への影響が減少する一方で標準偏差はさらに大きくなります）。 0に近づく傾向があります。

同様のことは、正常性を前提とする他の多くの一般的なテストでも行われます。尖度が高いほど、尾が重いことに関連する傾向があります。異常値がテストに与える影響に「圧倒される」。つまり、低電力です。

— Glen_b -Reinstate Monica
ソース

うわー、非常に明確で精巧な答えをありがとう。あなたの時間は大歓迎です！

— DDK

また、サンプル平均の大サンプル分布は尖度に依存しないので、平均値の正規性推定テストの実際の有意水準は、n->無限大、すべての有限尖度について）、分散の検定については同じではありません。推定された分散の大標本分布は尖度に依存するため、尖度がゼロと異なる場合、分散の古典的な正規性検定の実際の有意水準は、n->無限として名目レベルに収束しません。

— ピーターウェストフォール

また、尖度が高いということは、数学的には、「平均からの偏差が小さい」ことを意味するものではありません。それが確実にあなたに伝える唯一のことは、尾にもっとあるということです。

— ピーターウェストフォール

さらに小さな偏差を作成しない限り、より大きな偏差を取得して分散を一定に保つことはできません。分散を一定に保持しないと、新しいスケールに比べて偏差の多くが小さくなります。はい、そうです、尖度を見るとなると、数学は、より大きなものはより小さなものを運ぶと言います。

— Glen_b-モニカを復活

Z

$Z$

X

$X$

κ = E (Z^{4})

$\kappa=E(Z^4)$

\sqrt{κ - 1} = E (Z^{2})

$\sqrt{\kappa-1}=E(Z^2)$

κ

$\kappa$

Z

$Z$

Var (Z) = 1

$\text{Var}(Z)=1$

X

$X$

μ \pm k σ

$\mu\pm k\sigma$

k

$k$

X

$X$

X^{'}

$X'$

Z^{'}

$Z'$

尖度は外れ値を測定します。外れ値は、正規分布に基づいた標準の推論（たとえば、t検定、t区間）にとって問題です。これで話は終わりです！そして、それは本当にとても簡単な話です。

この話があまり評価されない理由は、尖度が「ピーク」を測るという古代の神話が続くためです。

尖度が「ピーク」ではなく外れ値を測定する理由を示す簡単な説明を次に示します。

次のデータセットを考慮してください。

0、3、4、1、2、3、0、2、1、3、2、0、2、2、3、2、5、2、3、1

尖度は、（z値）^ 4の期待値です。以下が（z-values）^ 4です。

6.51、0.30、5.33、0.45、0.00、0.30、6.51、0.00、0.45、0.30、0.00、6.51、0.00、0.00、0.30、0.00、27.90、0.00、0.30、0.45

平均は2.78で、これは尖度の推定値です。（過剰な尖度が必要な場合は3を引きます。）

次に、最後のデータ値を999に置き換えて、外れ値になるようにします。

0、3、4、1、2、3、0、2、1、3、2、0、2、2、3、2、5、2、3、999

さて、ここに（z-values）^ 4があります：

0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、360.98

平均は18.05で、これは尖度の推定値です。（過剰な尖度が必要な場合は3を引きます。）

明らかに、外れ値のみが重要です。「ピーク」や中間の問題に関するデータについては何もありません。

2番目のデータセットを使用して標準的な統計分析を実行する場合、問題が発生することが予想されます。大きな尖度は問題を警告します。

詳細を説明する論文は次のとおりです。

ウェストフォール、PH（2014）。尖度としての尖度、1905 –2014。RIP The American Statistician、68、191–195。

— ピーター・ウェストフォール
ソース

なぜノンパラメトリックテストを使用しないのですか？これらのタイプの問題では、それらは優れている可能性があります。

— カール

あなたがテストを好むなら、それは可能性のある道であることに同意しました。しかし、それは本当に私の懸念ではありません。私は一般的に確率的モデリングにもっと興味があります。1つのアプリケーション：たぶん、平均に興味があるかもしれません。たとえば、従属変数が稼いだドルの場合、プロセス平均はプロセス中央値よりも興味深いです。それで、データが異常値になりやすい場合、データはプロセスについて何を意味しますか？それは難しい問題ですが、重要な問題であり、瞬間尖度は答えに関連しています。ノンパーテストではありません。

— ピーターウェストフォール

コーシー分布の場合、トリミングされた平均は中央値よりも位置の優れた尺度になる可能性があり、通常の平均は位置の尺度にはなりません。場所の尺度として使用するものは、分布が何であるかに依存します。指標として尖度が役に立たない例は、平均極値が中央値と平均値の両方よりも位置のより良い尺度である均一分布です。

— カール

ポイントではありません。合計（ドルなど）に関心がある場合、通常の平均は希望する場所の尺度です。

— ピーターウェストフォール

Cauchy分布変数がある場合は、獲得した合計金額を主張できますが、平均は場所の特に有用な尺度ではありません。つまり、「期待値」にはそれに関連する合理的な期待がないことを意味します。

— カール

-3

尖度も非対称の尾を示します。両側仮説検定では、一方の尾が長い尾になり、もう一方の尾が短い尾になります。テールの1つは>アルファですが、<ベータです。一方のテールはp値を渡しますが、もう一方はパスしません。

基本的に、統計的推論は標準法線を前提としています。標準の標準ではない場合、より洗練された推論メカニズムに基づいた推論でうまくいくかもしれません。ポアソン推論が可能かもしれませんが、正規分布ではない分布では、正規分布に基づく推論を使用できません。

スキューと尖度は非正規性の尺度です。正規性をテストする必要があることがわかる前に、手段を取り、正規分布を使用することを学びます。法線には、各次元から36以上のデータポイントが必要です。20個のデータポイントで推定できますが、それでもスキューと尖度があります。分布が正規化に近づくと、スキューと分布は消えます。

説明の1つは尖度を尖度として定義しました。別の人はしませんでした。これは現時点では未解決の戦いです。尖度は、4番目の瞬間、エリアです。私は問題のピークではありません。

そこにあるもう1つのアイデアは、スキューがあると、中央値が三角形を形成するモードに傾くということです。楽しい。

— デビッド・W・ロック
ソース

これにより、すでに優れた回答に有用で異なるものが追加されることは明らかではありません。「通常は36以上のデータポイントが必要」などのいくつかの不可解なステートメントを追加します（したがって、35はOKではありませんか？この主張の根拠は何ですか？「尖り具合としての歪み」誰もこれを主張しているとは思いません。」「正常標準：一般に、尖度が第四の瞬間、面積ではないではない：なし;ここで定義されるような尖度は、平均約第四及び第二モーメントに基づいて、無次元の比である

— ニックコックス

4番目の瞬間は不可欠であるため、エリアです。その領域がどのようにピークまたは曲率に変換されるかは、私にとって失われます。

— デビッドW.ロック

彼らの尖度の典型的な説明は尖りであるが、それは私の見解では間違っている。元の応答を編集して、尖度が尖度であると言うように歪度を変更して、尖度が...ありがとうございます。

— デビッドW.ロック

尾は対称ではありません。非対称の裾を考慮した統計的推論については、これまで見たことがありません。より多くのデータポイントが収集されると尾が移動するため、尖度リスクが発生します。スキューと尖度は、標準の標準を達成するのに十分なデータがないことです。

— デビッドW.ロック

そうではありません。指数関数、ガンマ、ワイブル、および正規ではない他の多くの分布には、理論と応用の塊があります。

— ニックコックス