非常に歪んだ分布の変換


13

分布が非常に高度に正に歪んでいる変数があると仮定します。そのため、正規分布の歪度の範囲内にログを入れるにはログを取るだけでは十分ではありません。この時点で私のオプションは何ですか?変数を正規分布に変換するにはどうすればよいですか?


2
念のため、「スキューネガティブ」とは、ロングテールが左または右を指していることを意味しますか?それが本当に負に歪んでいる場合(左テールが長い)、ログ変換はあまりうまく機能しません。
ペンギンナイト14

6
相互変換は対数よりも強力で、測定単位が逆になっているだけなので、多くの場合、意味を保持します。たとえば、何かをする時間の逆数は一種の速度であり、逆もまた同様です。ガロンあたりのマイル数またはリットルあたりのkmの逆数は理にかなっています。逆数は順序を逆にし、それが望ましい場合は否定することができます。それらは当然、その余分な詳細を持つBox-Coxスキームの一部です。これがうまく機能するためには、すべての値が正でなければなりません。(原則として、すべての負の値で機能しますが、実際の例はまだ見ていません。)
ニックコックス14

2
@Aksakal良いアイデアとは思えません。結果は、値が場合にのみ統計的に意味があります。値がカウントの場合、値がデータ内で発生するかどうかに関係なく、0または1に対してトランスフォームが未定義になることは人為的です。かのように変換の妥当性は、不合理であり、測定単位の選択に依存すること値が測定されている場合、制限手段私は、CMを使用するために行わ、しかしすることができないは、mmを使用しているため実行できます。(その対数は負の引数に対して複雑な結果をもたらします。統計的には役に立たないと思います。)lnln>1lnln0.7lnln7
ニックコックス14

2
@Aksakal「ログ変換は歪度を治すツールではありません」と言うには強すぎます。歪度が唯一の問題である場合、ログはしばしば非常にうまく機能します。あなたのポイントが周辺分布の歪度が大きな問題である必要はないということなら、私は同意する傾向があります。
ニックコックス14

3
自然に同意しますが、二乗や対数を使用した場合、参照を提供する義務はありませんし、ここでも同様です。しかし、逆数、特に時間と速度の有用性は、(例えば)Tukey、JW 1977によって強調されました。探索的データ分析。マサチューセッツ州レディング:Addison-Wesleyと彼の論文のいくつか。1ガロンあたりのマイル数と1マイルあたりのガロン(または逆に1キロメートルあたりのリットルと1リットルあたりのキロメートル)は、自動車性能データの議論で一般的な場所です。密度とその逆数は、地理と人口統計のかなり標準的な例です。
ニックコックス

回答:


13

λ

LL関数を使用して実装するのは非常に簡単です。SA​​SやMATLABなどのstatパッケージでコマンドを使用する場合は、MATLAB のboxcoxコマンドとSASのPROC TRANSREGを使用します。

また、Rでは、これはMASSパッケージの関数boxcox()にあります。


5

正のスキュー(テールがx軸の正の端にある)の場合、平方根変換、対数変換、および逆/逆変換(重大度の増加順)があります。したがって、ログ変換が十分でない場合、次のレベルの変換を使用できます。Box Coxはすべての変換を自動的に実行するため、最適な変換を選択できます。


-5

ほとんどのソフトウェアスイートでは、デフォルトのログベース、別名:自然ログとしてオイラーの番号を使用します。より大きな基本数を使用して、過度に右スキューしたデータを抑制できます。どのように構文的に行うかは、使用しているソフトウェアによって異なります。

推定が行われた後、変換された値を戻す必要がある場合、ログベースが何であれ、変数に対して指数演算子を実行するだけなので、この方法を使用する方が少し簡単かもしれません。


6
e
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.