応用統計コースで尖度を教えるべきですか?もしそうなら、どのように?


17

少なくとも直観的には、中心傾向、広がり、歪度はすべて比較的適切に定義できます。これらのものの標準的な数学的尺度も、直感的な概念に比較的よく対応しています。しかし、尖度は異なるようです。それは非常に紛らわしく、分布形状についての直観ともうまく一致しません。

適用された設定での尖度の典型的な説明は、Microsoft Excelを使用したビジネスおよび管理の応用統計 からの次の抜粋です。[1]

尖度とは、分布がどの程度ピークに達するか、逆に分布がどれだけ平坦になるかを指します。正規分布から予想されるものよりも多くのデータ値が裾にある場合、尖度は正です。逆に、正規分布で予想されるよりもテールのデータ値が少ない場合、尖度は負になります。Excelは、少なくとも4つのデータ値がない限り、この統計を計算できません。

「尖度」と「過剰尖度」の混同は別として(この本のように、他の著者が後者と呼ぶものを指すために前者の単語を使用するのが一般的です)、「ピークネス」または「フラットネス」に関する解釈その後、テールにあるデータ項目の数への注意の切り替えによって混乱します。「ピーク」と「テール」の両方を考慮する必要があります—カプランスキー[2]1945年に、当時の多くの教科書では、尖度は、テールを考慮せずに、分布のピークが正規分布のピークと比較してどれだけ高いかについて誤っていると述べていました。しかし、ピークとテールの両方の形状を明確に考慮する必要があるため、直感を把握するのが難しくなります。上記の抽出物は、これらの概念が同じであるかのようにテールのピークからヘビーに分離することでスキップします。

さらに、この古典的な尖度の「ピークとテール」の説明は、対称分布と単峰分布でのみうまく機能します(実際、そのテキストに示されている例はすべて対称です)。それでも、尖度を「ピーク」、「尾」、または「肩」のいずれで表現するかにかかわらず、尖度を解釈する「正しい」一般的な方法は、数十年間議論されてきました[2][3][4][5][6]

より厳密なアプローチが取られたときに矛盾や反例にぶつからない適用された設定で尖度を教える直感的な方法はありますか?尖度は、数学統計クラスとは対照的に、これらの種類の応用データ分析コースのコンテキストではまったく有用な概念ですらありますか?分布の「ピークネス」が直感的に役立つ概念である場合、代わりにLモーメントを使用してそれを教える必要がありますか?[7]

[1] Herkenhoff、L.およびFogli、J.(2013)。Microsoft Excelを使用したビジネスおよび管理に適用される統計。ニューヨーク、NY:スプリンガー。

[2]カプランスキー、I。(1945)。「尖度に関する一般的なエラー」。 Journal of the American Statistics Association40(230):259。

[3]ダーリントン、リチャードB(1970)。「尖度は本当に「ピーク」ですか?」アメリカ統計 24(2):19–22

[4] Moors、JJA。(1986)「尖度の意味:ダーリントンが再検討された」。アメリカの統計学者 40(4):283–284

[5] Balanda、Kevin P.およびMacGillivray、HL(1988)。「尖度:重要なレビュー」。アメリカの統計学者 42(2):111–119

[6] DeCarlo、LT(1997)。「尖度の意味と使用について」。心理的方法2(3)、292。シカゴ

[7] Hosking、JRM(1992)。「モーメントまたはLモーメント?分布形状の2つの測定値を比較する例」。アメリカ統計学者46(3):186–189


2
通常のカリキュラムとはどういう意味ですか?すなわち、教育のレベル。
グメオ

5
尖度について正確に教えていますか?この質問は、かなり曖昧です。それがあなたのカリキュラムにどのように適合するかを記入してください。そして、おそらく尖度で矛盾するあなたが同意する標準的な測定からのいくつかの直観的な例。
ジョン

3
尖度の瞬間的な尺度は、その点で実際の瞬間の歪度とは大きく異なるとは思いません。どちらの場合も、彼らは人々が自分がしていると思うことを実際に反映しておらず、彼らは彼らが彼ら自身について語る物語よりも直感的ではありません。尖度についての驚くべき反例ごとに、歪度についての別の例があります。私はそれらのいずれも削除しませんが、モーメントの測定値への重点を減らし、後でそれらを動かし、教え方を変えて、異なる概念を混同しないようにします。持ちこたえない主張をする。
Glen_b-モニカを

3
歪度高いからといって、歪度の方向に尾が重いということではありません。ゼロ歪度は対称性を意味しません(すべての奇数モーメントゼロは対称性を意味することもありません)。対称性は、歪みがゼロであることを意味しません。どんな直感が残っていますか?
グレン_b-モニカの復活

3
ここに、興味深いクラスの例があるいくつかの議論の別の答えがあります。他にもいくつかありますが、今は表示されません。whuberの投稿の一部も役立ちます。
Glen_b -Reinstate Monica

回答:


18

尖度は本当に非常にシンプルで便利です。それは単に外れ値、またはテールの尺度です。それはピークとは何の関係もありません-その定義は放棄されなければなりません。

データセットは次のとおりです
。0、3、4、1、2、3、0、2、1、3、2、0、2、2、3、2、5、2、3、999

「999」は外れ値であることに注意してください。

データセットの値は次のとおりです。z4

0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、0.00、360.98

外れ値のみが0とは著しく異なるを与えることに注意してください。z4

これらの値の平均は、経験的分布の尖度です(必要に応じて3を減算します。これは、私が作成しているポイントには関係ありません):18.05z4

この計算から、「ピーク」付近のデータ(異常値以外のデータ)は尖度統計にほとんど何も寄与しないことが明らかです。

尖度は、外れ値の尺度として役立ちます。外れ値は小学生にとって重要であるため、尖度を教える必要があります。しかし尖度は、尖っているか、平坦であるか、二峰性であるか、無限であるかに関わらず、ピークとはほとんど関係ありません。尖度が小さい場合は上記のすべてを、尖度が大きい場合は上記のすべてを使用できます。だから、必要があります決してそれが誤った情報を教えることになるので、ピークとは何かを持つものとして提示していないこと。また、マテリアルを不必要に混乱させ、一見有用性が低くなります。

概要:

  1. 尖度は、テール(外れ値)の尺度として役立ちます。
  2. 尖度はピークとは関係ありません。
  3. 尖度は実際上有用であり、教えられるべきですが、外れ値の尺度としてのみです。尖度を教えるときにピークに言及しないでください。

この記事では、なぜ「ピーク」の定義が公式に消滅したのかを明確に説明しています。

ウェストフォール、PH(2014)。「尖度としての尖度、1905 –2014。RIPアメリカ統計学者68(3)、191–195。


4
CVへようこそ、今後も継続して貢献してください。論文へのリンクを含めるように投稿を編集し、数学表記の一部を再フォーマットしました。気にしないでください。($たとえば、数学を配置することにより、$z^4$を使用できます。)LATEX
Silverfish

6

質問はいくぶんあいまいですが、興味深いです。尖度はどのレベルで教えられますか?線形モデルの(修士レベル)コースで言及されたことを覚えています(かなり前、Seberの本の初版に基づいています)。これは重要なトピックではありませんでしたが、分散の等式の尤度比検定(F検定)の堅牢性(不足)の研究などのトピックに入ります。ここで(メモリから)正しいレベルは、尖度が正規分布、これは仮定するには多すぎる! Ojaのhttp://www.jstor.org/stable/4615828?seq=1#page_scan_tab_contentsの論文を見ました(詳細は読みませんでした)。

なぜこれが面白いと思うのですか?私はラテンアメリカで教えてきたので、歪度と尖度は多くの重要なトピックによって教えられているようであり、大学院生(経済から多くの人)に尖度は分布の形の悪い尺度(主に4乗のサンプリングのばらつきは単純に大きいため)、困難でした。代わりにQQplotsを使用するように試みていました。そのため、一部のコメンテーターに、はい、これどこかで、おそらく多くに教えられています!

ところで、これは私の意見だけではありません。次のブログ投稿https://www.spcforexcel.com/knowledge/basic-statistics/are-skewness-and-kurtosis-useful-statisticsに はこの引用が含まれています(Wheeler博士に帰属):

要するに、歪度と尖度は事実上価値がありません。シューハートは、彼の最初の本でこの観察を行いました。歪度と尖度の統計は、位置と分散の測定によってすでに与えられている情報を超える有用な情報を提供しません。

分布の形態を研究するためのより良いテクニックを教えるべきです!QQplots(または相対分布プロット)など。そして、もし誰かがまだ数値測定を必要とするなら、Lモーメントに基づく測定がより良いです。JRM Hoskingの論文「JR Statist Soc B(1990)52、No 1、pp 105--124」の「Lモーメント:順序統計の線形結合を使用した分布の分析と推定」、109ページからの一節を引用します。

λ1λ2μ(F)12σ1(F)τ3τ4

(現時点では、これらの測定値の定義については論文を参照しますが、それらはすべてLモーメントに基づいています。)興味深いのは、4番目のモーメントに基づく従来の尖度の測定値は尖度の測定値ではないことですオージャの意味で!(見つけることができたら、そのクレームのリファレンスを編集します)。


1
分布特性を理解するためにグラフィカルな手法や他の手法を使用しても問題はありませんが、「歪度と尖度は実質的に価値がない」という表現は誇張されています。両方とも、あらゆる種類の統計的推論に大きな影響を及ぼします。
ピーターウェストフォール

@Peterその声明ではおそらく「経験的尖度」を意味していました。
kjetil bハルヴォルセン

1
それでも、経験的尖度は、データに異常値の問題がある場合にわかります。だから私はまだ「歪度と尖度は実質的に価値がない」というコメントは誇張だと思う。確かに、それらは「人口」パラメータの優れた推定値ではないかもしれませんが、特にサンプルサイズが小さい場合は、「実質的に価値のない」範囲になります。母集団パラメーターを特にうまく推定していなくても、既存のデータセットに関する有用な説明情報を提供します。もちろん、qqプロットなどのグラフィカルビューで補足する必要がある情報。
ピーターウェストフォール

@Peter Westfall:実際のQは、経験的尖度が異常値の問題を検出するための最良の手段であるか、またはより良いものがあるかどうかです。
kjetil bハルヴォルセン

経験的尖度は、個々の外れ値ではなく、データセットの外れ値の特性を測定します。尖度= 3(通常のように)が「外れ値なし」を意味すると言うまでは行きませんが、そのような場合は、外れ値の文字(平均z値によって測定され、それぞれが4番目のpower)は正規分布のものと似ています。一方、巨大な尖度は、間違いなく異常値の問題を示しています。はい。通常のqqプロットは、より洗練された診断に適しています。ところで、通常のqqプロットと過剰な尖度は、しっかりした数学的なつながりがあります。
ピーターウェストフォール

3

私の意見では、歪度係数は、正の歪曲と負の歪曲という用語の動機付けに役立ちます。しかし、あなたの目標が正常性を評価することである場合、それは停止します。歪度と尖度の古典的な測定では、通常、正常からのさまざまなタイプの逸脱を捕捉できません。私は通常、生徒にグラフィカルな手法を使用して、qqプロットや正規確率プロットなどの正規性を評価するのが妥当であると評価することを推奨しています。また、適切なサイズのサンプルでは、​​ヒストグラムも使用できます。ボックスプロットは、外れ値や重い裾を識別するのにも役立ちます。

これは、1999年のAPAタスクフォースの推奨事項と一致しています。

仮定。 データを考慮して、分析に必要な基礎となる仮定が合理的であることを保証する努力を払う必要があります。残留物を注意深く調べます。分布テストと形状の統計的指標(歪度、尖度など)を残差をグラフィカルに調べる代わりに使用しないでください。統計的テストを使用してモデルフィッティングの問題を診断するには、いくつかの欠点があります。第一に、要約統計量に基づく診断的有意性検定(分散の均一性の検定など)は、実用的ではない場合が多くあります。多くの場合、モデルの統計的検定は、仮定の統計的検定よりも堅牢です。第二に、歪度や尖度などの統計では、残差の分布の不規則性を検出できないことがよくあります。第三に、統計的検定はサンプルサイズに依存し、サンプルサイズが増加すると、多くの場合、テストは無害な仮定を拒否します。一般的に、仮定のグラフィカルな分析に代わるものはありません。

参照:Wilkinson、L.、および統計的推論に関するタスクフォース。(1999)。心理学ジャーナルの統計的手法:ガイドラインと説明。アメリカの心理学者、54、594-604。


1

コースの適用方法によっては、推定の正確性の問題が浮かび上がる場合があります。分散推定の精度は尖度に大きく依存します。これが発生する理由は、尖度が高いと、分布によりまれで極端に観測可能なデータが許可されるためです。したがって、データ生成プロセスは、一部のサンプルでは非常に極端な値を生成し、他のサンプルではそれほど極端な値を生成しません。前者の場合、非常に大きな分散推定値を取得し、後者の場合、小さな分散推定値を取得します。

時代遅れで不正確な「ピークネス」の解釈を排除し、代わりに外れ値(つまり、まれで極端な観測可能性)に完全に焦点を当てると、導入コースで尖度を教える方が簡単になります。しかし、人々は教科書で「間違って」そのように述べられており、尖度の実際の適用を見逃しているため、「ピークネス」を正当化しようとする結び目になります。これらのアプリケーションは主に外れ値に関連しており、もちろん統計値の応用コースでは外れ値が重要です。


1
このスレッドで最も支持された回答の著者と同じPeter Westfallですか?その場合、プロファイルをマージしてから、別の回答を投稿する代わりに、古い回答を直接編集できます。
アメーバは、モニカを復活させる

1
はい、ネチケットを見逃して申し訳ありません。
ピーターウェストフォール

-1

Kurt[X]=E[(Xμσ)4]=μ4σ4=E[(Xμ)4](E[(Xμ)2])2,

1ni=1nμ,σ2,μ4μσ2


1
問題は、尖度を取得すると、それが何を意味するか(もしあれば)非常に直感的でないことです。配布の有用な品質と一致しません。
ピーターフロム-モニカの復職

はい、尖度は分布の非常に有用な品質と一致します-これはテールウェイト(外れ値)の尺度です。反例のない数学定理のサポート:(i)尖度はE(Z ^ 4 * I(| Z |> 1))とE(Z ^ 4 * I(| Z |> 1))+ 1の間にある、有限の4次モーメントを持つすべての分布に対して。(ii)(0,1)でZ ^ 2の密度が減少している連続分布のサブクラスでは、尖度はE(Z ^ 4 * I(| Z |> 1))とE(Z ^ 4 * I(| Z |> 1))+ .5、および(iii)無限に傾向がある尖度を持つ分布のシーケンスの場合、E(Z ^ 4 * I(| Z |> b))/尖度-> 1すべての本物のb。
ピーターウェストフォール
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.