尖度に影響を与えずにスキューを変更する変換?


11

尖度に影響を与えずに確率変数のスキューを変更する変換があるかどうか私は興味があります。これは、RVのアフィン変換が平均と分散にどのように影響するかと似ていますが、スキューと尖度には影響しません(スキューと尖度がスケールの変化に対して不変であると定義されているためです)。これは既知の問題ですか?


この変換でも標準偏差を一定に保つ必要がありますか?
russellpierce

いいえ、そうではないと思いますが、過剰な尖度は修正されたままです。ただし、変換は単調で、できれば決定論的であると想定します。
shabbychef

1
Yikes-非決定的関数を証明したい人にとって悲惨なことは単調です。
russellpierce

このスレッドは読者にとって興味深いかもしれません。正常なrvの尖度と歪度を増加させる変換
ガン-モニカの回復

回答:


6

私の答えは完全なハッキングの始まりですが、私はあなたが求めることを行う確立された方法を知りません。

私の最初のステップは、データセット内の比例位置を見つけることができるデータセットをランク付けして正規分布に変換することです。この方法はReynolds&Hewitt、1996で使用されました。以下のPROCMiracleのサンプルRコードを参照してください。

分布が正常になったら、問題は頭に現れました-尖度を調整することでスキューではありません。グーグル検索では、1980年のJohn&Draperの手順に従って尖度を調整でき、スキューは調整できないことが示唆されましたが、その結果を再現することはできませんでした。

入力(正規化)値を取り、通常のスケールでの変数の位置に比例して値を加算または減算する粗い拡散/縮小関数を開発しようとすると、単調な調整になりますが、実際には希望する歪度と尖度の値を持つ二峰性分布。

これは完全な答えではないことに気づきましたが、正しい方向への一歩を提供するかもしれないと思いました。

PROCMiracle <- function(datasource,normalrank="BLOM")
  {
     switch(normalrank,
      "BLOM" = {
                  rmod <- -3/8
                  nmod <- 1/4
                },
      "TUKEY" = {
                  rmod <- -1/3
                  nmod <- 1/3
                },
      "VW" ={
                  rmod <- 0
                  nmod <- 1
            },
      "NONE" = {
                  rmod <- 0
                  nmod <- 0
                }
    )
    print("This may be doing something strange with NA values!  Beware!")
    return(scale(qnorm((rank(datasource)+rmod)/(length(datasource)+nmod))))
  }

私は次のようなことをしてきました:ランク付けしてから、gおよびh変換を使用して、修正された尖度とスキューを得ます。ただし、この手法は、推定できる母集団尖度を実際に知っていることを前提としていますが、尖度を何も知らなくても保持できる変換がある場合、哲学的に興味があります...
shabbychef

@shabbychef:ああ、それでは、何も新しく追加しないでごめんなさい。しかし、あなたは何か新しいものを追加しました、私はこれまでg-and-h式について聞いたことがありませんでした。それを提供する自由にアクセスできる引用がありますか?私はそれを綴った1つの論文(fic.wharton.upenn.edu/fic/papers/02/0225.pdf)に偶然出会いましたが、この概念は私には少し異質です(特にe ^ Z ^ gまたは何か他のものです) )?私はこのようにしてみました...しかし、結果は奇妙に見えました... a + b *(e ^ g ^ z-1)*(exp((h * z ^ 2)/ 2)/ g)。
russellpierce

1
@drnexus:自分のテクニックに言及して結果にバイアスをかけたくありませんでした。Haynes et alからg-and-hおよびg-and-k分布について学びました。al、dx.doi.org / 10.1016 / S0378-3758(97)00050-5、Fisher&Klein、econstor.eu
bitstream / 10419/29578/1 /

1

別の考えられる興味深い手法が思い浮かびましたが、これは問題に完全に答えるものではありませんが、サンプルを変換して、固定サンプルLスキューとサンプルL尖度(および固定平均とLスケール)を持たせることです。これらの4つの制約は、順序統計では線形です。観測値のサンプルで変換を単調に保つには、別の方程式が必要になります。これは、二次最適化問題として提起される可能性があります。最小化します、N - 1 2nn12サンプルの順序統計と変換されたバージョンの間のノルム。ただし、これは一種の風変わりなアプローチです。元の質問では、もっと基本的で基本的なものを探していました。また、サンプルのコホート全体とは無関係に、個々の観察に適用できる手法を暗黙的に探していました。


0

このデータセットは、データ変換を使用するのではなく、レプトクール分布を使用してモデル化したいと思います。私は、Jones and Pewsey(2009)のBiometrikaのsinh-arcsinhディストリビューションが好きです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.