正規分布の歪度と尖度の値の範囲


11

データが正規分布していると見なされる歪度尖度の値の範囲はどのくらいか知りたい。

私は多くの議論を読みました、そしてほとんど私は混同した答えを得ました。いくつかは歪度ため言う- 2 2 正規分布しているの許容範囲である尖度ため。いくつかは述べています- 1.96 1.96 歪度については許容範囲です。私ここで詳細な議論を見つけました:この問題に関するデータの正規分布の歪度と尖度の許容範囲はどのくらいですか?しかし、私は決定的な発言を見つけることができませんでした。(1,1)(2,2)(1.96,1.96)

そのような間隔を決定するための根拠は何ですか?これは主観的な選択ですか?または、これらの間隔の背後にある数学的説明はありますか?


3
「許容できる」とは何を定義するか、誰が定義しますか?
Glen_b-2016

それは良い質問です。これについて明確な答えはありません。
Dark_Knight 2016年

あなたの質問の背後にあるのは、暗黙の方法であると私は考えていますか?「このモデルを推定する前に、そのテストを実行する前に、サンプルの歪度と尖度をチェックしてください。両方が事前に指定された範囲内にある場合は、通常の理論手順、それ以外の場合は別のものを使用してください。」...?
Glen_b-2016

もしそうなら、そのようなアプローチを使用する可能性のある通常の仮定を伴う手順は何ですか?これを確認する変数は何ですか?何らかの基準で「受け入れられる」ものではないと結論した場合に使用する代替手順は何ですか?
Glen_b-2016

また、これは、特に境界を選択するために何らかの理由が提供されている場合に、コンテキストにとって重要である可能性があります-これらのような範囲を取得できる引用符を含めることができます(特に、提案された範囲がかなりある場合)違う)?そのような状況から知るのに役立つと思われることの1つ-彼らはこのようなことをどのような状況で使用していますか?
Glen_b-2016

回答:


6

元の投稿では、2つの主要なポイントを逃しています。(1)「データ」を正規に配布することはできません。データは必ず離散的です。有効な質問は、「データを生成したプロセスは正規分散プロセスですか?」です。しかし、(2)統計的検定やデータに基づくその他の評価によって何が得られるかに関係なく、2番目の質問に対する答えは常に「いいえ」です。正規分布プロセスは、無限の連続性、完全な対称性、および標準偏差の範囲(68-95-99.7など)内で正確に指定された確率でデータを生成しますが、何でも測定できるデータを生成するプロセスには、これらのどれも正確には当てはまりません人間が使える測定器です。

したがって、データが正規分布であると見なすことはできず、データを生成したプロセスを正確に正規分布であると見なすこともできません。ただし、Glen_bが示すように、データをどのように処理しようとしているのかによっては、それほど重要ではない場合があります。

歪度と尖度の統計は、データ生成プロセスの正規性からの特定の種類の偏差を評価するのに役立ちます。ただし、統計は非常に変動します。上記の標準エラーは、正常性の下でのみ有効であるため、有用ではありません。つまり、正常性のテスト、つまり本質的に役に立たない練習としてのみ有用です。ブートストラップを使用してseを見つけることをお勧めしますが、正確なseを取得するには大きなサンプルが必要になります。

また、上記の記事とは異なり、尖度は非常に簡単に解釈できます。これは、Z値の平均(または期待値)であり、それぞれが4乗されます。大きい| Z | 値は外れ値であり、尖度に大きく寄与します。小さい| Z | 分布の「ピーク」が存在する値では、Z ^ 4の値が小さく、本質的に尖度には影響しません。私の記事https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/で、尖度がZ ^ 4 * I(| Z |> 1)値の平均によって非常によく近似されていることを証明しました。したがって、尖度は、異常値を生成するデータ生成プロセスの傾向を測定します。


明確にするために、「通常の分散プロセス」とは正確にはどういう意味ですか?確率変数の離散性と連続性についてあなたが言っていることを理解しましたが、Central Limit定理を使用して作成できる正規分布に関する仮定についてはどうですか?
Dark_Knight 2016年

CLTはここでは関係ありません。ここでは、平均ではなく、個々のデータ値を生成する分布について話しています。「正規分布プロセス」は、正規分布の確率変数を生成するプロセスです。完璧な通常のコンピューターの乱数ジェネレーターがその例です(そのようなものは存在しませんが、私たちが使用するソフトウェアではかなり優れています。)
Peter Westfall

また、分析できるデータを生成するプロセスは通常のプロセスではないため、サンプルサイズに関係なく、そのようなプロセスによって生成される平均の分布も正確に正常になることはありません。しかし、そうです、そのような平均の分布は、CLTによる正規分布に近いかもしれません。このような分布の正規性への近さは、(i)サンプルサイズおよび(ii)個々のデータ値を生成するデータ生成プロセスの非正規性の程度に依存します。
Peter Westfall、2016年

4
こんにちはピーター-ソート順が変わるので、「上記」のような参照を避けてください。あなたにとって上にあるものは、次に見る人にとって上にないかもしれません。gungの投稿または私の投稿を意味している場合(まだ編集中です。私はそれのいくつかの側面に取り組んでいるため)、作成者によってそれらを識別できます。
Glen_b-2016

上記では、尖度が高いほど外れ値が発生する傾向が高いことを意味すると主張しています。外れ値を自発的に定義しない限り(つまり、主張を真実にするために)、これは一般的なケースでは真実であるステートメントではありません。たとえば、裾が重い分布ほど尖度が低い分布のペアを構築するのはかなり簡単です。
Glen_b-2016

5

ここで求めているように見えるのは、正常な母集団から抽出されたサンプルの歪度と尖度の標準誤差です。歪度太い尾(尖度)などの推定方法にはさまざまなものがあることに注意してください。これらは、標準誤差がどうなるかに明らかに影響します。人々が考える最も一般的な測定は、技術的には3番目と4番目の標準化された瞬間として知られています。

[1,)3kurtosis3[2,)skewness2+124/N0

価値のあるものとして、標準エラーは次のとおりです。

SE(skewness)=6N(N1)(N2)(N+1)(N+3)SE(kurtosis)=2×SE(skewness)N21(N3)(N+5)

0

  • <|.5|
  • [|.5|,|1|)
  • |1|

歪度と尖度の入門的な概要については、こちらをご覧ください


3

[以下では、「サンプルの歪度と尖度をチェックし、両方が事前に指定された範囲内にある場合は、通常の理論手順を使用し、それ以外の場合は別の方法を使用する」などの提案をしていると想定しています。]

これには多くの側面がありますが、そのうちのいくつかを検討するだけのスペースがあります。最初に、このような基準を使用するために跳躍する前に、重要な問題を検討する必要があると思うものをリストします。後で戻って、各項目について少し書こうと思います。

考慮すべき問題

  1. さまざまな種類の非正規性が、私たちがしていることすべてにどれほどひどく問題になるでしょうか?

  2. サンプルの歪度と尖度の範囲を使用してこれらの偏差を検出するのはどれほど難しいですか?

    私が提案で同意することの1つは、重要度ではなく、効果の大きさ(正規性からどれだけ逸脱しているか)に関連する1組の指標に注目します。その意味では、正式な仮説検定が役立つ有用なものに取り組むことに近づきます。これは、大きなサンプルサイズでの些細な偏差さえも拒否する傾向がある一方で、はるかに大きい(そしてよりインパクトのある)偏差の非拒否の誤った慰めを提供します。小さなサンプルサイズ。(仮説テストはここで間違った質問に対処します。)

    もちろん、サンプルサイズが小さい場合でも、測定値が非常に「うるさい」という意味で問題があるので、そこに迷う可能性があります(信頼区間は、実際にどれほど悪いかを知るのに役立ちます)。

    歪度または尖度の偏差が、正規化したいものの問題にどのように関係するかはわかりません。また、手順が異なれば、非正規化に対する応答もまったく異なる場合があります。

    正常からの逸脱が歪度と尖度が盲目になる種類のものである場合、それは私たちを助けません。

  3. これらのサンプル統計を2つの手順の間で決定するための基礎として使用している場合、結果の推論のプロパティに対する影響は何ですか(たとえば、仮説検定の場合、有意水準と検出力はこれを行うとどのように見えますか?)

  4. 正規分布と正確に同じ歪度と尖度を持つ無限の数の分布がありますが、明らかに非正規です。それらは対称である必要さえありません!そのようなものの存在は、そのような手順の使用にどのように影響しますか?企業は最初から運命づけられていますか?

  5. 正規分布から抽出されたサンプルで、サンプルの歪度と尖度の変動はどのくらいありますか?(通常のサンプルの何パーセントが、何らかの規則で最終的に捨てられるでしょうか?)

    [この問題の一部は、ガンが彼の回答で議論しているものの一部に関連しています。]

  6. 代わりに何か良いことはありますか?

最後に、これらすべての問題を検討した後、先に進んでこのアプローチを使用する必要があると判断した場合は、質問から導き出される考慮事項に到達します。

  1. さまざまな手順の歪度と尖度に適した境界は何ですか?どの手順でどの変数を心配する必要がありますか?

    (たとえば、回帰を行っている場合、IVやraw DVをこの方法で処理することは正しくないことに注意してください。これらのいずれも、一般的な正規分布から得られたものではありません)


私は戻っていくつかの考えを追加しますが、それまでにあなたが持っているコメント/質問は役に立ちます。


0

また、正規性テストを実行するために歪度と尖度の特定の範囲の値が必要な理由もわかりません。
Dark_Knight 2016年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.