レプトクルティック分布を正規性に変換する方法は?


12

正常に変換したいレプトクルティック変数があるとします。このタスクを達成できる変換は何ですか?データを変換することが常に望ましいとは限らないことをよく知っていますが、学術的な追求として、データを正常に「ハンマー」したいとします。さらに、プロットからわかるように、すべての値は厳密に正です。

さまざまな変換を試しました(これまでに使用したものはほとんどすべて、など)、しかし、どれも特にうまく機能しません。レプトクルティック分布をより正規にするためのよく知られた変換はありますか?1バツバツアシンバツ

以下の標準QQプロットの例を参照してください。

ここに画像の説明を入力してください


5
確率積分変換に精通していますか?動作を確認したい場合は、このサイトのいくつかのスレッドで呼び出されています。
whuber

8
記号を尊重しながら対称的に機能するもの(変数「中間」)が必要です。「中間」がなければ、あなたが試みたものは何も近づきません。「中間」に中央値を使用し、偏差の立方根を試してください。立方根をsign(。)* abs(。)^(1/3)として実装することを忘れないでください。保証はなく、アドホックですが、正しい方向に進む必要があります。
ニックコックス14

1
ええと、何があなたをその板状と呼ぶのですか?何かを見逃さない限り、通常より尖度が高いように見えます。
Glen_b -Reinstateモニカ

3
@Glen_bは正しいと思います。それはレプトクルティックです。しかし、Biometrikaの Studentによる元の漫画への参照を許可する場合を除き、これらの用語はどちらもかなりばかげています。基準は尖度です。値は高または​​低、または(さらに良い)定量化されています。
ニックコックス14

3
t6

回答:


12

私が使用して重い尾ランバートWをF分布をxは急尖データを記述して変換します。詳細と参照については、次の投稿を参照してください:

以下は、LambertW Rパッケージを使用した再現可能な例です。

library(LambertW)
set.seed(1)
theta.tmp <- list(beta = c(2000, 400), delta = 0.2)
yy <- rLambertW(n = 100, distname = "normal", 
                theta = theta.tmp)

test_norm(yy)

元のデータの正規性をテストする

## $seed
## [1] 267509
## 
## $shapiro.wilk
## 
##  Shapiro-Wilk normality test
## 
## data:  data.test
## W = 1, p-value = 0.008
## 
## 
## $shapiro.francia
## 
## 	Shapiro-Francia normality test
## 
## data:  data.test
## W = 1, p-value = 0.003
## 
## 
## $anderson.darling
## 
##  Anderson-Darling normality test
## 
## data:  data
## A = 1, p-value = 0.01

yy×バツN2000400δ=0.25

さて、あなたの質問に戻りましょう。このレプトカーティックデータを再び正常にする方法は?さて、MLEを使用して(またはモーメント法を使用してIGMM())分布のパラメーターを推定できます。

mod.Lh <- MLE_LambertW(yy, distname = "normal", type = "h")
summary(mod.Lh)

## Call: MLE_LambertW(y = yy, distname = "normal", type = "h")
## Estimation method: MLE
## Input distribution: normal
## 
##  Parameter estimates:
##        Estimate  Std. Error  t value Pr(>|t|)    
## mu     2.05e+03    4.03e+01    50.88   <2e-16 ***
## sigma  3.64e+02    4.36e+01     8.37   <2e-16 ***
## delta  1.64e-01    7.84e-02     2.09    0.037 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## -------------------------------------------------------------- 
## 
## Given these input parameter estimates the moments of the output random variable are 
##   (assuming Gaussian input): 
##  mu_y = 2052; sigma_y = 491; skewness = 0; kurtosis = 13.

W_delta()バツ

# get_input() handles does the right transformations automatically based on
# estimates in mod.Lh
xx <- get_input(mod.Lh)
test_norm(xx)

ガウス化されたデータの正規性をテストする

## $seed
## [1] 218646
## 
## $shapiro.wilk
## 
##  Shapiro-Wilk normality test
## 
## data:  data.test
## W = 1, p-value = 1
## 
## 
## $shapiro.francia
## 
## 	Shapiro-Francia normality test
## 
## data:  data.test
## W = 1, p-value = 1
## 
## 
## $anderson.darling
## 
##  Anderson-Darling normality test
## 
## data:  data
## A = 0.1, p-value = 1

出来上がり!


私はファンであり、pythonのscikit-learnのようなバージョンの作業を開始しました:github.com/gregversteeg/gaussianize-
グレッグVer

Georgでは、変換がどのように機能するかについて、より直感的な説明を提供できますか?
アズリック

Z=うんexpδ/2うん2うんδ>0Z

9

符号(。)abs(。)13Y中央値Y

立方根変換はうまく機能しませんでしたが、平方根とより不明瞭な4分の3の根がうまく機能することがわかりました。

元の質問のレプトクルティック変数のQQプロットに対応する元のカーネル密度プロットは次のとおりです。

ここに画像の説明を入力してください


偏差に平方根変換を適用すると、QQプロットは次のようになります。

ここに画像の説明を入力してください

より良いが、それはより近いことができます。


さらに4分の3のルート変換を偏差に適用すると、次の結果が得られます。

ここに画像の説明を入力してください


そして、この変換された変数の最終的なカーネル密度は次のようになります。

ここに画像の説明を入力してください

私の近くに見えます。


8

多くの場合、通常に近い結果を生成する単純な形式の単調な変換はないかもしれません。

たとえば、さまざまなパラメーターの対数正規分布の有限混合である分布があるとします。対数変換は、混合物の成分のいずれかを正規性に変換しますが、変換されたデータ内の法線の混合物は、正常ではない何かを残します。

または、比較的優れた変換がありますが、試してみたいと思われる形式の1つではありません。データの分布がわからない場合は、見つけられない可能性があります。たとえば、データがガンマ分布である場合、正規分布への正確な変換(確かに存在します)を見つけることさえできません。形状パラメーターが小さすぎない限り、ケースは通常にかなり近くなります)。

データが変換されるのに適度に見える可能性がありますが、明らかな変換のリストのいずれでも見栄えがよくない無数の方法があります。

データへのアクセスを許可できる場合は、大丈夫な変換を見つけることができるか、見つからない理由を示すことができます。

視覚的な印象から見ると、スケールが異なる2つの法線が混在しているように見えます。非対称性のほんの少しのヒントがあり、それは偶然に簡単に観察できます。共通の平均を持つ2つの法線の混合からのサンプルの例を次に示します-あなたが見るように、それはあなたのプロットにかなり似ています1 sdの平均値の両側の統計)。

ここに画像の説明を入力してください

実際、ここにあなたと私のものが重ねられています:

ここに画像の説明を入力してください


確かに、異なるスケールの2つの正規分布の混合のように見えますが、優れた観察結果です。
アンダーマイナー14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.