歪度がゼロであるが対称ではない単峰性分布の例を誰かが提供できますか?


31

2010年5月、WikipediaユーザーのMcorazaoは、歪度の記事に「ゼロの値は、値が平均の両側に比較的均等に分布していることを示します。通常、対称分布を意味するわけではありません」ただし、wikiページには、この規則に違反する分布の実際の例はありません。「歪みがゼロの非対称分布の例」をグーグルで検索しても、少なくとも最初の20の結果では実際の例はありません。

定義を用いてスキューによって算出される、およびR式E[(Xμσ)3]

sum((x-mean(x))^3)/(length(x) * sd(x)^3)

歪度を低くするために、小さな任意の分布を作成できます。たとえば、分布

x = c(1, 3.122, 5, 4, 1.1) 

スキュー生み出す。しかし、これは小さなサンプルであり、さらに対称性からの逸脱は大きくありません。それで、非常に非対称であるが、歪度がほぼゼロである1つのピークを持つより大きな分布を構築することは可能ですか?5.64947105


3
分布を単峰性にするかどうかを選択しますか?タイトルはそう言っていますが、テキストはこの点についてほとんど言及していません。
ディリップサルワテ

@Dilipはい、分布が単峰性であれば、歪度は中心的な瞬間として実際には意味をなさないため、より興味深いと思います。
アンディマッケンジー

回答:


28

離散分布を検討してください。 上に支持されている一つX 1はxは2··· X K非負確率によって決定され、P 1P 2... Pのk個の条件に従うが、()は、1に合計は、(B)歪度係数は0(3番目の中心モーメントがゼロに等しい)に等しくなります。これにより、k 2の自由度が残ります(統計的なものではなく、方程式を解決する意味で!)。ユニモーダルなソリューションを見つけることができます。kx1,x2,,xkp1,p2,,pkk2

簡単な例のために検索を行うために、私が小さい対称のベクター上に担持溶液求めに固有のモードに0、平均ゼロ、ゼロ歪度を。そのような解決策であるP 1... P 7= 1396 3286 9586 47386 8781 3930 x=(3,2,1,0,1,2,3)0(p1,,p7)=(1396,3286,9586,47386,8781,3930,1235)/75600

確率関数

非対称であることがわかります。

ここでより明らかに非対称溶液だ(非対称である)と、P = 1 18 72 13 4 / 108x=(3,1,0,1,2)p=(1,18,72,13,4)/108

確率関数2

何が起こっているのかが明らかです平均がに等しいため、負の値が3番目の瞬間に3 3 = 27および18 × 1 3 = 18を寄与し、正の値が4 × 2 3 =を寄与します3213 × 1 3 = 13で、負の寄与を正確にバランスさせています。x =など、0について対称な分布をとることができます。0(3)3=2718×(1)3=184×23=3213×13=130 P = 1 4 1 / 6、及びより少ない質量をシフト + 1 + 2、より少ない質量 + 1まで - 1、及び質量のわずかな量ダウン - 3で平均値を保ち、 0と歪度に 0をx=(1,0,1)p=(1,4,1)/6+1+2+11300同様に、非対称性を作成します。同じアプローチは、連続分布の非対称性を維持しながら、平均分布と歪度をゼロに維持するために機能します。質量シフトにあまり積極的でなければ、単相のままです。


編集:連続分布

問題が頻繁に発生するため、連続分布を使用した明示的な例を挙げましょう。ピーター・フロムは良い考えを持っていました:法線の混合物を見てください。2つの法線を混合しても効果はありません。歪度がなくなると、対称になります。次の最も簡単なケースは、3つの法線の混合です。

位置とスケールを適切に選択した後の3つの法線の混合物は、6つの実際のパラメーターに依存するため、非対称のゼロスキューソリューションを生成するのに十分な柔軟性が必要です。いくつかを見つけるには、法線の混合の歪度を計算する方法を知る必要があります。これらの中で、私たちはユニモーダルなものを検索します(どれも存在しない可能性があります)。

今、一般に、場合(非中央)は、標準正規分布のモーメントはゼロであり、Rが奇数であり、そうでない場合は等しい2 R / 2 Γ 1 - Rをrthr。我々は、標準偏差有するように、標準正規分布をスケール変更するときσをR番目のモーメントが乗算されますσR。任意の分布をμだけシフトすると、新しいr番目のモーメントは、rまでのモーメントで表すことができます。分布の混合のモーメント(つまり、分布の加重平均)は、個々のモーメントの同じ加重平均です。最後に、3番目の中心モーメントがゼロのとき、歪度は正確にゼロであり、これは最初の3つのモーメントに関して容易に計算されます。2r/2Γ(1r2)/πσrthσrμrthr

これにより、問題に対する代数攻撃が可能になります。私が見つけた一つの解決策は、パラメータで三面の法線の等量混合物であるに等しい0 1 1 / 2 1 、及び0 (μ,σ)(0,1)(1/2,1)。その平均等号0+1/2+0/3=1/6。この画像は、pdfを青で示し、分布のpdfの平均を赤で反転しています。それらが異なることは、両方が非対称であることを示しています。(モードは約0.0519216で1/6の平均とは等しくありません。) 両方とも、構造上、歪みはゼロです。(0,127/18)(0,2.65623)(0+1/2+0)/3=1/60.05192161/6

連続的な例

プロットは、これらが単峰性であることを示しています。(局所的な最大値を見つけるためにCalculusを使用して確認できます。)


(+1)非常に滑らかな答え。ただし、これは継続的な配布でも機能しますか?シフトは潜在的に小さな小さなモードを作成しませんか?私はまっすぐに考えていないかもしれません
マクロ

1
あなたは非常によく考えています、マクロ:私たちは皆とても懐疑的でなければなりません。秘Theは、広範囲に広がる小さな量をシフトすることです。一次微分テストは、可能なモードをチェックすることを可能にし、この形式の十分に小さなシフトが新しいモードを生成しないという証拠の基礎を提供します。
whuber

答えてくれてありがとう!これは私が直感的に考えていたことに似ていますが、言葉でうまく表現できませんでした。分布の両側で質量を「バランス」しなければならないということです。このバランスをとる行為を実行できるステレオタイプの方法があるのだろうかと思います。
アンディマッケンジー

1つの方法、Andyは、個別のソリューションから始めて、正規分布で畳み込むことです。この場合、単峰性の要件により、その正規分布の標準偏差が大きくなります。それでも、たたみ込みが必要なプロパティ(歪みゼロなど)をそれほど変更しない場合、または予測可能な方法で変更する場合は、問題を数学的に把握できます。厳密には畳み込みではありませんが、ある意味では私の最近の編集はそのような攻撃と見なすことができます(3つの法線の標準偏差が異なるため)。
whuber

2
Andy:離散解を正規分布で畳み込んでも歪度は変わらないことを確認しました。その正規分布に0.57以上の標準偏差を与えると、結果は単峰性になります。基礎となる離散分布のように、平均値、歪度、非対称性は引き続きゼロです。これを標準正規分布と混合すると、標準正規分布と離散分布の間の質量の制御された移動になります。これは、「ステレオタイプ化」メソッドの要求を満たすことができます。
whuber

23

これはhttps://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html#で見つけたもので、Rで見事に再現されています:逆バーまたは、形状パラメーターおよびc = 18.1484のダガム分布k=0.0629c=18.1484

g(x)=ckx(c+1)[1+xc](k+1)

平均値は0.5387、標準偏差は0.2907、歪度は0.0000、尖度は2.0000です。ソースはそれを「象の分布」とも呼びます: ここに画像の説明を入力してください

Rでの私の複製は、

library(actuar)
library(knotR)

# a nonsymmetric distribution with zero skewness
# see https://www.qualitydigest.com/inside/quality-insider-article/problems-skewness-and-kurtosis-part-one.html#

c <- 18.1484
k <- 0.0629

x <- seq(0,1.5,by=.0001)

elephant.density <- dinvburr(x, k, c)
plot(x,elephant.density, type="l")
polygon(c(min(x),x),c(min(elephant.density),elephant.density), col="grey")
points(0.8,0.8, pch=19, cex=2)

# "ears" created via https://www.desmos.com/calculator/cahqdxeshd
ear.x <- c(0.686, 0.501, 0.42, 0.68)
ear.y <- c(0.698, 0.315, 1.095, 0.983)

myseg(bezier(cbind(ear.x, ear.y)), type="l")

EX <- gamma(k+1/c)*gamma(1-1/c)/gamma(k) # see p6 of https://wwz.unibas.ch/uploads/tx_x4epublication/23_07.pdf
EX2 <- gamma(k+2/c)*gamma(1-2/c)/gamma(k)
EX3 <- gamma(k+3/c)*gamma(1-3/c)/gamma(k)
(skewness <- (EX3 - 3*EX*(EX2-EX^2)-EX^3)/(EX2-EX^2)^(3/2)) # zero to three digits: 0.0003756196

kc

   # optimize skewness a bit further
    skewval <- 1

while (skewval > 10^(-10)){
  optskew.k <- uniroot(skewness.fun, lower = k*.95, upper = k*1.1, tol=skewval^2, c=c)
  skewval <- optskew.k$f.root
  k <- optskew.k$root

  optskew.c <- uniroot(skewness.fun, lower = c*.95, upper = c*1.1, tol=skewval^2, k=k)
  skewval <- optskew.c$f.root
  c <- optskew.c$root
}

降伏

> print(c)
[1] 18.89306

> print(k)
[1] 0.05975542

> print(skewval)
[1] -1.131464e-15

編集していただきありがとうございます。ただし、0.0000から4桁の歪度を再現することはできず、代わりに0.0001245138が得られました(Rコードの次の編集を参照)。
クリストフハンク

ck

実際には、0.0003756196。0.0001245138は、ここで誤って与えられた初期最適化の後、すでにありました。あとで見てみます。
クリストフハンク

@amoeba、私は少し最適化しようとしましたが、それを巧妙な方法で行ったことを主張しません。最適化の経験はほとんどありません。
クリストフハンク

2
0〜3桁(ほぼ4桁)の歪度は、私の頭に十分でした。より正確な値が異なるように見えるようになるわけではありません。その付近で歪度がゼロを超え、さらに精度が必要な場合に値を微調整する方向が明確であれば、それで十分だと思います。しかし、追加の努力に対して称賛を。(ちなみに、それは素敵な例です。)
Glen_b-モニカーを復活

9

0からモードまで直線的に増加し、モードの右側で指数関数的であるが、モードで連続している実線の正の半分の分布を考えます。

これは、三角指数分布と呼ばれる可能性があります(ただし、フカヒレのように見えることがよくあります)。

θλ

λθλθ6.15

歪度がゼロの三角指数

[1][2]

スレッドは、歪度がゼロで過剰な尖度がゼロの非正規分布ですか?いくつかの非対称の例があり、小さな離散的な例と別の連続的な単峰性の例を含みます。

歪度ゼロのユニモーダルガウス混合

歪度がゼロの離散単峰性分布(または同等のサンプル)は、サイズが大きくても小さくても非常に簡単に構築できます。

次に例を示します。サンプルとして、または(生の周波数を3000で除算して)pmfとして扱うことができます(「x」値は取得した値、「n」はその値がサンプルで発生する回数です) ):

x:  -2   -1    0    1    2    3    4    5    6    7    8    9   10
n: 496  498  562 1434    2    1    1    1    1    1    1    1    1

上記から構築された確率質量関数のプロット

この例は、3点分布から構築されています。

x:          -2              1                  c
n:   c(c-1)(c+1)/6     c(c-1)(c+1)/3 - c       1

ccinixi=0inixi3=0c

構築できる他のこのような「原子」にはさまざまな方法がありますが、この例ではこの1種類のみを使用しています。これらの原子のいくつかの組み合わせに、対称的に配置された値をいくつか追加して、残りの穴を埋め、平均および三次モーメントの構造を破壊することなく単峰性を保証します。

[1]


[2]



3
多分それを「フカヒレ」と呼べるでしょうか?
Glen_b-モニカを

@Glen_bまったくフカヒレです。
アレコスパパドプロス

2

はい。これを試して:

skew= function (x, na.rm = FALSE) 
 {
    if (na.rm)    x <- x[!is.na(x)]             #remove missing values
    sum((x - mean(x))^3)/(length(x) * sd(x)^3)  #calculate skew   
 }

set.seed(12929883) 
x = c(rnorm(100, 1, .1), rnorm(100, 3.122, .1), rnorm(100,5, .1), rnorm(100, 4, .1), rnorm(100,1.1, .1))

 skew(x)
 plot(density(x))

(あなたはすでに難しいことをしました!)


1
いいね、気に入った。+1
グング-モニカの復職

4
バイモーダルではありません...恐ろしくマルチモーダルです。密度をプロットしてみてください。curve(0.2*(dnorm(x, 1, .1) + dnorm(x, 3.122, .1) + dnorm(x, 5, .1) + dnorm(x, 4, .1) + dnorm(x, 1.1, .1)), 0,10)
ゲスト

1
この方法で生成されたデータは確かにユニモーダルではありません。それを確認するために必要なことは、コードをそのままカットアンドペーストすることです。実際、正規分布変数の混合はユニモーダルになることはありません(もちろん、混合比率の1つが1でない限り)。
マクロ

8
@Macro、それは正しくありません。たとえば、「平均が少なくとも2つの標準偏差で分離されていない限り、2つの混合法線の密度はバイモーダルではない」という有名な結果については、Roeder 1994(JASA)の要約を参照してください。これらの間隔がこれよりも小さい場合、混合物は単峰性です。
ゲスト

1
あなたは正しい@guestです。私が投稿したとき、その可能性を忘れていました
マクロ

2

E[(Xμσ)3]=0
E[(Xμσ)3|Xμ]+E[(Xμσ)3|X>μ]=0.

YZμ

E[(Yμσ)3]=E[(Zμσ)3]
XYμ(μZ)

YZμμ


1
分布が単峰性であることをどのように保証しますか?
ディリップサルワテ

YZμ

σYZ

@whuber:くそー。落とし穴がなければならないことは知ってました... :
krlmlr

2

次の離散分布は非対称であり、歪度はゼロです:Prob(-4)= 1/3、Prob(1)= 1/2、Prob(5)= 1/6。Doric et al。、Qual Quant(2009)43:481-493;の論文で見つけました。DOI 10.1007 / s11135-007-9128-9


+1チェックアウトすると、ユニモーダルです。これが最も簡単な例です。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.