構成された分布の尖度


8

下の画像を見てください。青い線は標準の標準PDFを示します。赤いゾーンは灰色の領域の合計に等しいはずです(ひどい描画では申し訳ありません)。

グレイゾーンを通常のpdfの上部(レッドゾーン)にシフトすることで、より高いピークを持つ新しい分布を作成できるでしょうか。

より高いピークを持つ新しい分布

そのような変換を行うことができる場合、この新しい分布の尖度についてどう思いますか?Leptokurtic?しかし、それは正規分布と同じ尾を持っています!未定義?


1
質問はハンサムですが、描画は確かにひどいです。正規分布よりも鋭いクルティック分布は、裾が重いはずです。ただし、これらの尾の領域(これも赤に着色する必要があります)を描画しませんでした。合計するとあなたが想定している彼らの分野は何ですか?
ttnphns 2013

1
やってみませんか?標準法線から10,000をシミュレート(たとえば)してから、いくつかの数値を移動して必要な分布を作成します。次に、プログラムで線を引き、尖度も計算します。
Peter Flom

密度の微分可能性を犠牲にする準備ができている場合は、そのような分布を作成できます(区分的密度になります)。
Alecos Papadopoulos

2
@ttnphns、タグが誤解を招いた場合は申し訳ありません。私は尾の変更を望んでいないことがこの写真で明らかになることを望みました。通常、教科書では、ピークとテールの同時変化を比較して尖度について説明しています。ピークのみが高くなる場合の尖度について何が言えるのかを知りたい。
Yal dc

1
Yal dc-標準偏差が変更されたことに注意してください。特定の定義を使用しない限り、「テール」は同じではありませんtail
Glen_b -Reinstate Monica

回答:


12

描画に非常によく似た分布が無数にあり、尖度の値はさまざまです。

あなたの質問の特定の条件で、クロスオーバーポイントが内側にあるか、少なくとも外側±1にあると考えれば、通常よりも少し大きい尖度が得られるはずです。それが発生する3つのケースを示し、次にそれが小さいケースを示し、それが発生する原因を説明します。

ことを考えるとおよび標準正規PDFファイルであり、それぞれCDFは、のは、自分自身少し機能書いてみましょうΦ x ϕ(x)Φ(x)

f(x)={ϕ(x);|x|>ta+b.g(x);|x|t 

いくつかの連続した対称密度(対応する累積分布関数)、平均場合、および。G 0gG0 a=ϕtbです。gtb=Φ(t)½t.ϕ(t)G(t)½t.g(t)a=ϕ(t)b.g(t)

つまり、および密度が連続作るとに統合するために選択されている。b 1ab1

例1および 1を考えます。t = 1g(x)=3ϕ(3x)t=1

ここに画像の説明を入力してください

これはあなたの図面のように見えますが、ここでは次のRコードによって生成されます。

f <- function(x, t=1,
              dg=function(x) 2*dnorm(2*x),
              pg=function(x) pnorm(2*x),
              b=(pnorm(t) - 0.5 - t*dnorm(t))/ (pg(t) - 0.5 - t*dg(t)),
              a=dnorm(t)-b*dg(t) ) {
       ifelse(abs(x)>t,dnorm(x),a+b*dg(x))
     }

f1 <- function(x) f(x,t=1,dg=function(x) 3*dnorm(3*x),pg=function(x) pnorm(3*x))
curve(f1,-4,4,col=2)
lines(x,dnorm(x),col=3)

今計算。を評価する関数を作ってみましょう:xpf1(x)

fp <- function(x,p=2) x^p*f1(x)

モーメントを評価できます。まず、分散:

 integrate(fp,-Inf,Inf)  # should be just smaller than 1
0.9828341 with absolute error < 1.4e-07

次に4番目の中心モーメント:

 integrate(fp,-Inf,Inf,p=4) # should be just smaller than 3
2.990153 with absolute error < 8.3e-06

これらの数値の比率が必要です。これは約5桁の精度を持つ必要があります。

 integrate(fp,-Inf,Inf,p=4)$value/(integrate(fp,-Inf,Inf)$value^2)
[1] 3.095515

したがって、尖度は約3.0955で、通常の場合よりもわずかに大きくなります。

もちろん、それを代数的に計算して正確な答えを得ることができますが、必要はありません。これにより、知りたいことがわかります。


例2上記で定義した関数を使用すると、あらゆる方法のそれを試すことができます。gfg

ここにラプラスがあります:

library(distr)
D <- DExp(rate = 1) 
f2 <- function(x) f(x,t=1,dg=d(D),pg=p(D))
curve(f2,-4,4,col=2)
lines(x,dnorm(x),col=3)

ここに画像の説明を入力してください

fp2 <- function(x,p=2) x^p*f2(x)


 integrate(fp2,-Inf,Inf)  # should be just smaller than 1
0.9911295 with absolute error < 1.1e-07
 integrate(fp2,-Inf,Inf,p=4) # should be just smaller than 3
2.995212 with absolute error < 5.9e-06
 integrate(fp2,-Inf,Inf,p=4)$value/(integrate(fp2,-Inf,Inf)$value^2)
[1] 3.049065

当然のことながら、同様の結果。


例3:をコーシー分布(1 dfのスチューデントt分布)としますが、スケールは2/3(つまり、が標準コーシーの場合、、そして再びしきい値 tを設定します(ポイントを与える、その外側で通常に「切り替え」)、1に設定します。h x g x = 1.5 h 1.5 x ± tgh(x)g(x)=1.5h(1.5x)±t

dg <- function(x) 1.5*dt(1.5*x,df=1)
pg <- function(x) pt(1.5*x,df=1)

f3 <- function(x) f(x,t=1,dg=dg,pg=pg)
curve(f3,-4,4,col=2)
lines(x,dnorm(x),col=3)

ここに画像の説明を入力してください

fp3 <- function(x,p=2) x^p*f3(x)

 integrate(fp3,-Inf,Inf)  # should be just smaller than 1
0.9915525 with absolute error < 1.1e-07

 integrate(fp3,-Inf,Inf,p=4) # should be just smaller than 3
2.995066 with absolute error < 6.2e-06

 integrate(fp3,-Inf,Inf,p=4)$value/(integrate(fp2,-Inf,Inf)$value^2)
[1] 3.048917

そして、私たちが実際に適切な密度を得ていることを示すために:

 integrate(f3,-Inf,Inf)
1 with absolute error < 9.4e-05

例4しかし tを変更するとどうなりますか?

取る及び前の例として、それだけにしきい値を変更:G t = 2gGt=2

f4 <- function(x) f(x,t=2,dg=dg,pg=pg)
curve(f4,-4,4,col=2)
lines(x,dnorm(x),col=3)

ここに画像の説明を入力してください

fp4 <- function(x,p=2) x^p*f4(x)

 integrate(fp4,-Inf,Inf,p=4)$value/(integrate(fp2,-Inf,Inf)$value^2)
[1] 2.755231

これはどのように起こりますか?

まあ、尖度が(少しゆるく言えば)1+ 2乗分散であることを知っておくことが重要です。μ±σ

ここに画像の説明を入力してください

3つの分布はすべて、平均と分散が同じです。

黒い曲線は標準の標準密度です。緑の曲線は、についてかなり集中した分布を示しています(つまり、についての分散は小さく、尖度が1に近づき、最小になります)。赤い曲線は、分布がから「押し出された」場合を示しています。つまり、尖度が大きいです。μ ± σ μ ± σμ±σμ±σμ±σ

このことを念頭に置いて、しきい値ポイントを外側に十分遠くに設定すると 、尖度を3未満に押し下げても、ピークが高くなります。μ±σ


素晴らしい仕事。ありがとうございました。もう1つ質問があります。ピークが終了する場所とテールが開始する場所を決定するルールはありますか?
Yal dc

1
あんまり。(尖度について論じているため)有限の4次モーメントを持つ連続対称単峰型の場合に限定すると、多くの場合、 ' 'の外側 を呼び出すことはあまり意味がありません。 'the tail' 内にあるものすべてですが、言うのが難しいこともあります たとえば、考え ; に近い場合それを尾と呼び始める明確な場所はありません。もう1つは、ラプラス分布では、正確な中心のいずれの側でもテールと呼ぶことができます。μ ± σ F X = 3 + 2 A / 6 - X 2- 1 < X < 1 0 < A < 3μ±σ μ±σf(x)=(3+2a)/6ax2; a1<x<1,0<a<34a0
Glen_b-モニカ

4

尖度はかなり誤解されている概念です(LT De Carloの論文「On the Meaning and Use of Kurtosis」(1997)は、関連する問題の賢明で価値のある議論と提示だと思います)。

だから私はナイーブなビューを取り、標準の通常の密度と比較して、「モードでより薄い中間およびより高い値」であるが、後者と同一の「」を持つ密度を構築します。この密度が「過剰な尖度」を示すと主張していませんgX(x)

この密度は必然的に段階的です。同じ左右の「尾部」、間隔のためにその関数形有するために、及び、ここで、標準正常に同じであるべきである密度。中間の間隔では、他の関数形式が必要です。これをと呼びます。このはゼロを中心に対称であり、 (,a)(a,)a>0ϕ(x)(a,a)h(x)h(x)

1)で、モードでの密度の値は標準法線の値よりも高くなります。 h(0)>ϕ(0)=1/2π

2)なので、は連続です。 ϕ(a)=h(a)=h(a)=ϕ(a)gX(x)

さらに、は、適切な密度になるように、ドメイン全体で1に統合する必要があります。したがって、この密度はgX(x)

gX(x)=ϕ(x)<xah(x)axaϕ(x)ax<

前述の制限に加えて、 h(x)

aϕ(t)dt+aah(t)dt+aϕ(t)dt=1

これは、区間下の確率質量が、同じ区間の下の確率質量と等しくなければならないことを要求することと同等です。h(x)(a,a)ϕ(x)

aa(h(t)ϕ(t))dt=00a(h(t)ϕ(t))dt=0
対称特性による最後の部分。

特定の値を取得するには、ゼロ平均ラプラス分布の密度を「試行」しますh(x)

h(x)=12be|x|b,b>0

以前に設定したさまざまな要件を満たすには、次のものが必要です。

モードでより高い値の場合、

h(0)=12b>ϕ(0)=12π0<b<π/2[1]

連続性の場合、

h(a)=ϕ(a)12beab=12πe12a2
ln(2b)ab=ln(2π)12a212a2ab+lnπ/2b

これは中二次です。その判別式は a

Δa=1b2412lnπ/2b>0

(それが常にポジティブであることを簡単に確認できます)。さらに、なので、正のルートのみを保持するため、a>0

a=1b+Δa[2]

最後に、密度を1に統合するための要件は、

0a12be|x|bdt=0aϕ(t)dt

簡単な統合により、

1eab=2(Φ(a)12)=erf(a/2)[3]

これはについて数値的に解くことができるので、密度を完全に決定できます。 b

もちろん、ゼロを中心に対称的な他の関数形を試すこともできます。ラプラシアンpdfは、説明のためだけのものでした。


1
あなたが言及した記事は非常に有益であることがわかりました。ありがとうございました。
Yal dc

1
DeCarlo論文に関する警告:アブストラクトの最初の文は数学的に正しくありません。彼は、「対称的な単峰分布では、正の尖度は正規分布に比べて重い裾とピークを示しますが、負の尖度は軽い裾と平坦さを示します。」しかし、無限の尖頭を持つ負の過剰尖度を持つ対称的な単峰分布があり、完全に平坦なピークを持つ無限の尖度を持つ対称的な単峰分布があります。
Peter Westfall 2017年

0

この分布の尖度は、おそらく正規分布の尖度よりも高くなります。私はこれを大まかな図面に基づいているためだと思います。この方法で質量を移動すると常に尖度が増加することを証明することは可能かもしれませんが、私はそれについて肯定的ではありません。

正規分布と同じ裾をもつことは事実ですが、この分布は、それが導出された正規分布よりも分散が低くなります。つまり、その裾は一部の正規分布の裾と一致しますが、同じ分散の正規分布の裾とは一致しません。したがって、正規化された裾は、実際には正規分布の裾よりも太くなります。また、テールが太くても自動的に尖度が高くなるわけではありませんが、この場合、正規化された4次モーメントもおそらく大きくなります。


分散が低くなることに同意します。残念ながら、分散の変化が尾にどのように影響するかわかりませんでしたか?尾には何もしなかったことを思い出してください。シフトしたポイントは、尾からではなく、ピークの近くで取得されました。あなたの要点を理解するのを助けてくれませんか?
Yal dc

1
尖度は、正規化された4次モーメントによって定義されます。正規化は、分散の2乗で除算することによって実行されます。分散の2乗が下がるので、尖度は上がります。尾に関しては、それらが変化しないことは事実です。ただし、分散が下がったため、正しい比較を行うには、分布を、分散と同じ分散を持つ正規分布と比較する必要があります。この他の正規分布は、分散が低いため、裾が細くなります。
mpr

その場合、私は同意します。残った問題は、「正しい比較は何かをどのように決定したのですか?他の特性を比較するために、同様の分散を持つ分布を使用する必要があるというのはルールですか 私はそのような原則にこれまで会ったことがありません。
Yal dc

1
分散は、分布を正規化する標準的な方法です。尖度について具体的に質問しましたが、先に述べたように、尖度は正規化された4次モーメントに基づいて定義されます。つまり、尖度の比較に関心がある場合は、同じ分散の分布を比較する必要があります。
mpr

今分かります。実際、正規分布には一定の尖度があり、分散は異なる場合があります。説明していただきありがとうございます。
Yal dc

0

OPは、テールを固定し、分布をより「ピーク」にして、「ピーク度」と尖度の関係を確立しようとしているようです。ここでは尖度に影響がありますが、非常にわずかであるため、言及する価値はほとんどありません。これがその主張をサポートする定理です。

定理1:有限の4次モーメントを持つ確率分布を考えます。で質量を置き換えることによって新たな確率分布を構築範囲の質量外側維持 固定し、平均値を維持しますでの標準偏差。その場合、そのようなすべての置換におけるピアソンモーメントの尖度の最小値と最大値の差は、です。[μσ,μ+σ][μσ,μ+σ]μ,σ0.25

コメント:証明は建設的です。この設定では、実際に代替尖度の最小値と最大値を特定できます。さらに、0.25は、分布に応じて、尖度の範囲の上限です。たとえば、正規分布では、範囲の上限は0.25ではなく0.141です。

一方、次の定理によって与えられるように、尖度に対する尾の大きな影響があります。

定理2:4次モーメントが有限である確率分布を考えます。範囲外の質量を置き換え、質量を固定し、平均とでの標準偏差。次に、そのようなすべての置換におけるピアソンモーメント尖度の最小値と最大値の差は無制限です。つまり、尖度が任意に大きくなるように新しい分布を選択できます。[μσ,μ+σ][μσ,μ+σ]μ,σ

コメント:これらの2つの定理は、ピアソンモーメントの尖度に対する尾の影響が無限であるのに対し、「尖り」の影響はます。0.25

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.