スキューを使いこなす…なぜ多くのスキュー関数があるのですか?


9

このコミュニティからの4種類のスキューについて、もっと洞察を得たいと思っています。

私が参照するタイプは、http://www.inside-r.org/packages/cran/e1071/docs/skewnessヘルプページに記載されています。

古い方法はヘルプページには記載されていませんが、それでも含めています。

require(moments)
require(e1071)


x=rnorm(100)
n=length(x)
hist(x)


###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page


###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)


###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); }  #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)

###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...

e1071の作成者が参照している論文は、次のとおり です

私はその論文を読んだところ、タイプ#3のエラーが最も少ないことを示唆しています。

上記のコードの歪度の例を次に示します。

e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532

また、e1071の作成者が、ヘルプページのメモとは異なるスキュー関数を作成したことにも気付きました。sqrtに注意してください。

sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source

(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page

sqrt(n)が最初の方程式にある理由は何ですか?オーバーフロー/アンダーフローを適切に処理する方程式はどれですか。それらが異なる理由は他にありますか?


3
あなたの質問は「4種類のスキュー」について言及していますが、リンクを提供し、一連のコード(どの言語についても言及していません)を起動します。だから、人々はあなたが尋ねていることを発見するためにリンクを読む必要はありません、そしてRを読んでいない人々、そして理解を伝えるのに役に立たないコードを読む人々のために、それは4つを定義するのに役立ちますコードの束の前(またはできれば代わりに)が意味する歪度の測定。[「これら4つ」ではなく、「4つ」と言ったとき、なぜ5や7ではなく正確に4つ、またはその他の数字があると思いますか?]
Glen_b -Reinstate Monica

1
私はあなたの投稿で見つかる可能性のある特定の質問に何らかの形で回答しようとし、途中でいくつかの問題に対処しましたが、それ以外の「より深い洞察を得ることを望む」ことは曖昧すぎて返答できません。あなたが洞察したいものをもっと明確に特定できますか?私たちのサイトには、歪度に関する多くの質問があります。
Glen_b-2015

グレン、あなたの投稿をありがとう。説明のためと式を示すためにRを含めました。また、ラテックスも知りません。:(
クリス

回答:


10

「古い方法」と説明したものから始めましょう。これは2番目のピアソン歪度、または中央歪度です。実際、モーメントのゆがみとそれはおおむね同じヴィンテージです(ゆがみの中央値はピアソンの努力に先行するので、ゆがみの中央値は実際には少し若いです)。

いくつかの歴史についての少しの議論はここで見つけることができます。その投稿は、他のいくつかの質問にも少し光を当てるかもしれません。

2番目のピアソン歪度を使用して当社のサイトを検索すると、この測定の動作に関する議論を含むかなりの数の投稿がヒットします。

それは、私の心の中で歪度が測定された瞬間よりも奇妙なことではありません。どちらも、歪度測定に対する人々の期待に合わない奇妙なことをすることがあります。


の通常の形式については、こちらのウィキペディア説明されています。それが言うように、それはモーメント推定量の方法であり、標準化された3次モーメントの観点から母集団の計算を与えられて使用するのは自然なことです。b1

を使用する場合(つまり、ベッセル補正なしで)、言及したタイプを取得します。どちらも私が「瞬間の方法」と呼んでいるものです。分母の偏りを排除しようとする多くのポイントがあることは私には明らかではありません。計算が人々が手で行うことを期待するかもしれないことと一致するようにそれを行うことは意味があるかもしれません。snsn1g1

ただし、キュムラントの観点から母集団の歪度を定義する2番目の(同等の)方法があり(上記のWikipediaのリンクを参照)、サンプルの歪度についてそれらの不偏推定を使用した場合、を取得し。G1

[注さらにその中の分子乗算することによりそれは、人々がその形を見てもう一つの理由であることができるので、それをunbiases。三次モーメントと二次モーメントの両方の計算にバイアスをかけないようにしようとすると、わずかに異なると係数が前面に出ます。]b1n2(n1)(n2)n,(n1)(n2)

これらの3つすべては、サードモーメントの歪度のわずかに異なるバリエーションです。非常に大きなサンプルでは、​​実際に使用する違いはありません。小さいサンプルでは、​​すべてがわずかに異なるバイアスと分散を持っています。


ここで説明するフォームは歪度の定義を使い尽くしません(私は1ダースほど見たと思います- ウィキペディアの記事にはかなりの数がリストされていますが、それでも色域はカバーされていません)、3番目に関連する定義も-あなたがここであなたが育てる3つ以上を見た瞬間の歪度。

なぜ歪度の測定値が多いのですか?

だから(一瞬としてすべての3番目のモーメントの歪度を扱う)なぜそれほど多くの異なる歪度なのか?一部には、概念としての歪度を実際に突き止めるのが非常に難しいためです。それはあなたが本当に単一の数に留めることができない滑りやすいものです。その結果、すべての定義は何らかの意味で十分ではありませんが、それでもなお、通常、歪度測定で何をすべきかという私たちの広い意味と一致しています。人々はより良​​い定義を考え出し続けていますが、QWERTYキーボードのような古い対策はどこにも行きません。

3次モーメントに基づく歪度の測定値がいくつかあるのはなぜですか?

サードモーメントの歪度が非常に多い理由は、母集団のメジャーをサンプルメジャーに変換する方法が複数あるためです。モーメントに基づく2つのルートとキュムラントに基づく1つのルートを見ました。さらに構築できます。たとえば、ある分布仮定の下で(小さいサンプル)不偏測度、または最小平均二乗誤差測度または他のそのような量を取得しようとする場合があります。

あなたは歪んだ啓発に関連するサイト上の投稿のいくつかを見つけるかもしれません。対称ではないが3次モーメントの歪度がゼロの分布の例を示すものがあります。ピアソンの中央値の歪度と3次モーメントの歪度が反対の符号を持つ可能性があることを示すものがあります。

歪度に関するいくつかの投稿へのリンクは次のとおりです。

平均=中央値は、単峰分布が対称であることを意味しますか?

左に歪んだデータで、平均と中央値の関係は何ですか?

外れ値を持つヒストグラムから歪度を決定する方法?


の計算に関する最後の質問に関連して:b1

n(xx¯)3((xx¯)2)3/2 #from e1071 :: skewness source

(xx¯)3/n((xx¯)2/n)3/2#モーメントとe1071ヘルプページ

2つの形式は代数的に同一です。2番目は、「する2番目の瞬間の3番目の瞬間」という形式で明確に記述されます。最初の1つは、項をキャンセルし、残りを前面に出します。オーバーフローを回避するために行われたとは思わない/アンダーフロー;少し高速だと考えられたために実行されたと思います[オーバーフローまたはアンダーフローが懸念される場合は、おそらく計算を異なる方法で配置します。]32n

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.