スキュー正常データの仮説検定はできますか?


11

もともとは通常配布されていると思っていたデータのコレクションがあります。次に、実際にそれを見て、そうではないことに気づきました。ほとんどの場合、データが歪んでいるためです。また、shapiro-wilksテストも行いました。

それでも統計的手法を使用して分析したいので、スキュー正規性の仮説検定を行いたいと思います。

したがって、スキューの正常性をテストする方法があるかどうか、また可能であれば、テストを行うためのライブラリがあるかどうかを知りたいのです。

回答:


8

データをスキュー正規分布に適合させる方法について第一原理から最尤推定量を計算できます。最初なお、位置パラメータとスキュー正規分布の確率密度関数、スケールパラメーター及び形状パラメーター ISω αξωα

2ωϕ(xξω)Φ(α(xξω))

ここで、は標準正規密度関数、は標準正規CDFです。この密度は、この質問に対する私の回答で説明されているクラスのメンバーであることに注意してください。Φ ϕ()Φ()

この分布からの独立した観測値のサンプルに基づく対数尤度は次のとおりです。n

nlog(ω)+i=1nlogϕ(xξω)+logΦ(α(xξω))

このMLEには閉じた形のソリューションがないのは事実です。しかし、それは数値的に解くことができます。たとえば、ではR、尤度関数を次のようにコード化できます(注:上の尤度関数の計算方法を完全に透過的にするために、可能な場合よりもコンパクト/効率を低くしました)。

set.seed(2345)

# generate standard normal data, which is a special case
n = 100 
X = rnorm(n) 

# Calculate (negative) log likelihood for minimization
# P[1] is omega, P[2] is xi and P[3] is alpha
L = function(P)
{

    # positivity constraint on omega
    if( P[1] <= 0 ) return(Inf)

    S = 0
    for(i in 1:n) 
    {
        S = S - log( dnorm( (X[i] - P[2])/P[1] ) ) 
        S = S - log( pnorm( P[3]*(X[i] - P[2])/P[1] ) ) 
    }


    return(S + n*log(P[1]))
}

次に、この関数を数値的に最小化します(つまり、可能性を最大化します)。これは、のパッケージのデフォルト実装であるシンプレックスアルゴリズムを使用することにより、導関数を計算せずに実行できます。optim()R

歪度のテスト方法について:を制約し、尤度比テストを実行することにより、歪曲正常と通常の比較(正常はサブモデルであるため)を明示的にテストできます。α=0

# log likelihood constraining alpha=0. 
L2 = function(Q) L(c(Q[1],Q[2],0))

# log likelihood from the constrained model
-optim(c(1,1),L2)$value
[1] -202.8816

# log likelihood from the full model
-optim(c(1,1,1),L)$value
[1] -202.0064

# likelihood ratio test statistic
LRT = 2*(202.8816-202.0064)

# p-value under the null distribution (chi square 1)
1-pchisq(LRT,1)
[1] 0.1858265

したがって、(つまり、スキューなし)という帰無仮説を棄却しません。α=0

ここでは、正規分布がサブモデルであるため、比較は単純でした。他のより一般的なケースでは、たとえば、すべての競合する近似で最尤推定量を使用している場合、AICここで行うよう)を比較することにより、スキュー正規分布を他の参照分布と比較できます。たとえば、ガンマ分布とスキュー標準の下で最尤によってデータを近似し、追加された尤度がスキュー標準の追加された複雑さを正当化するかどうかを確認できます(2ではなく3つのパラメーター)。また、1つのサンプルのKolmogorov Smirnov検定を使用して、データをスキュー正常ファミリーからの最適な推定値と比較することを検討することもできます。


1
+1、これは明確で完全かつ建設的な答えだと思います。私は、AICの使用に関する最後の段落で、1つのnitpick /懸念があります。さまざまな情報基準で私が抱えている問題は、すべてのパラメーターがモデルがデータに適合する能力に等しく貢献していると想定していることです。さまざまな重回帰モデルを評価する場合、これは問題ないと思います。ただし、さまざまなタイプの分布を調べる場合、すべてのパラメーターが同等の柔軟性を提供するかどうかは、アプリオリには私には不明確です。したがって、私はそれで不快です。この問題に対するあなたの立場は何ですか?
ガン-モニカの復活

αα=0α(μ,σ,α)

@gung、これは良い点です。私は何よりも例としてAICを使用していました-何か他のものを使用することができます-しかし、AICを使用して異なるエラー分布のモデルを比較するのを見てきました。これは、すべてのパラメーターが「等しく作成」されているというこの同じ仮定を効果的にしています。この主題に関する文献を見たことがありますか?興味があります。
マクロ

α=0±.9α±αα

1
α

5

私はこの専門職に30年以上携わってきた統計学者であり、この投稿を読む前に、スキュー正規分布について聞いたことがありませんでした。高度に歪んだデータがある場合、なぜ対数正規またはガンマではなく、通常の歪曲を調べたいのですか?ガンマ、対数正規、スキュー正規などの分布のパラメトリックファミリーがある場合はいつでも、カイ二乗やコルモゴロフスミルノフなどの適合度検定を適用できます。


5
アザリーニのスキューノーマルは、1985年に提案された人気のあるディストリビューションです。これは、実際のライン全体をサポートしています。

1
@Procrastinator私は知っており、おそらく以前に聞いたことがあるはずです。しかし、私の意見は聞いたことがないので、おそらく他の歪んだディストリビューションよりも少しあいまいであると思います。シフトパラメーターが追加された場合に[0.∞)または{a、∞)でのみサポートされる私の例とは対照的に、実線全体でのサポートについて要点を理解します。これらの分布はすべて、データがどのように分布しているかを説明するための近似にすぎません。すべての負の値が可能であることを本当に知っていますか?実際のケースでは、データにはおそらく上限と下限があります。
マイケルR.チェニック

1
@Procrastinatorそれは私のコメントとは何の関係もありません。実際のデータは、無制限の分布で十分に近似できる場合でも、しばしば実際に制限されていると言っています。
Michael R. Chernick

1
@Procrastinatorまったく違う。有限の数のセットが与えられた場合、それらが離散的分布または連続的分布に由来するかどうかをデータから判別することはできません。有界性についても同様です。私は、データとは別に、測定されたものに基づいて、それが制限されていて連続的または離散的であるかどうかを厳密に知っていると言っています。たとえば、人の体重を測定している場合、体重が0よりも大きく、物理的な制限によって制限されていることが5000ポンドとわかります。
マイケルR.チェニック

1
また、重量測定値は特定の小数点以下の桁数までしか決定できない場合でも、重量を連続として扱うことは妥当です。これで、コインを10回反転させる場合、得られる頭の数は0から10の間の整数でなければならないことがわかります(離散的で境界がある)。私のポイントは、分布の限界は通常非常に明白であるということです。連続分布と離散分布のどちらを決定するかは明確ではありません。
マイケルR.チェニック、2012年

1

したがって、最終的に私の解決策は、fGarchパッケージ をダウンロードすることであり、fGarchsnormFitによって提供され、パラメーターのMLEをSkewed-Normalに取得しました。

次にdsnorm、fGarchが提供する関数を使用して、これらのパラメーターをKolmogorov-Smirnovテストに接続しました。


MLEとノンパラメトリック検定であるコルモゴロフ・スミルノフ検定をどのように組み合わせることができますか?

私が何をしているのかわから、ただ盲目的にさまよっているだけであることを指摘したいと思います。KSはカイ2乗のように機能すると想定し、サンプルデータと分布自体の違いを検討しました。Rのks.testは、最初にサンプルデータを受け入れ、次にその分布のパラメーターと共に分布を受け入れます。パラメータとしてMLEを使用しました。また、どのようにカイ二乗作品の私の仮定/ remberanceもされている可能性が間違っている...
Squidly

H0:λ=0

H0=λ=0H0

1
@Procrastinator経験的累積分布関数に基づく適合度テストには多くの利点があります。コルモゴロフ・スミルノフもその一人です。これらのテストは、経験的累積分布関数を特定の分布と比較するために使用できます(テスト前に未知のパラメーターが推定された場合の調整を使用します。たとえば、正規性の分布を拒否しても、分布がどのように異なるかはわかりません。しかし、MrBonesが彼は正式にこれを実行したいと考えています。彼は有意な歪度をテストし、次にKSまたはカイ二乗テストを実行して正常なスキューを行います。複数のテストに対して調整を行うことができます。なぜOPにこだわるのですか?
Michael R. Chernick

0

http://www.egyankosh.ac.in/bitstream/123456789/25807/1/Unit6.pdfhttp://en.wikipedia.org/wiki/Skewnessを確認してください

歪度については、カールピアソン検定を使用できます。3次モーメントと標準偏差の3乗の比率は、歪度係数と呼ばれます。対称分布は歪度= 0になります


2
データの偏りを解消したくありません。ゆがんでいるのはわかっています。データが歪曲正規分布に従っているかどうかを知りたい。
イカ

2
どのソフトウェアを使用しているか、RにはML推定値を計算する関数を含むパッケージ「sn」(通常のスキュー)があります。正確な機能はわかりませんが、Rパッケージの詳細については、このサイトazzalini.stat.unipd.it/SNを確認してください
NaN

0

SPSSでは、歪度の推定値を取得し(分析してから記述し、歪度にマークを付ける)、歪度のスコアと歪度のSE(標準誤差)を取得します。歪度をそのSEで除算し、スコアが+ -1.96の場合、通常は歪んでいます。それが歪んでいない場合、そこには多くのノンパラメトリックテストがあります!幸運とすべてのベスト!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.