分布が非常に高度に正に歪んでいる変数があると仮定します。そのため、正規分布の歪度の範囲内にログを入れるにはログを取るだけでは十分ではありません。この時点で私のオプションは何ですか?変数を正規分布に変換するにはどうすればよいですか?
2
念のため、「スキューネガティブ」とは、ロングテールが左または右を指していることを意味しますか?それが本当に負に歪んでいる場合(左テールが長い)、ログ変換はあまりうまく機能しません。
—
ペンギンナイト14
相互変換は対数よりも強力で、測定単位が逆になっているだけなので、多くの場合、意味を保持します。たとえば、何かをする時間の逆数は一種の速度であり、逆もまた同様です。ガロンあたりのマイル数またはリットルあたりのkmの逆数は理にかなっています。逆数は順序を逆にし、それが望ましい場合は否定することができます。それらは当然、その余分な詳細を持つBox-Coxスキームの一部です。これがうまく機能するためには、すべての値が正でなければなりません。(原則として、すべての負の値で機能しますが、実際の例はまだ見ていません。)
—
ニックコックス14
@Aksakal良いアイデアとは思えません。結果は、値が場合にのみ統計的に意味があります。値がカウントの場合、値がデータ内で発生するかどうかに関係なく、0または1に対してトランスフォームが未定義になることは人為的です。かのように変換の妥当性は、不合理であり、測定単位の選択に依存すること値が測定されている場合、制限手段私は、CMを使用するために行わ、しかしすることができないは、mmを使用しているため実行できます。(その対数は負の引数に対して複雑な結果をもたらします。統計的には役に立たないと思います。)
—
ニックコックス14
@Aksakal「ログ変換は歪度を治すツールではありません」と言うには強すぎます。歪度が唯一の問題である場合、ログはしばしば非常にうまく機能します。あなたのポイントが周辺分布の歪度が大きな問題である必要はないということなら、私は同意する傾向があります。
—
ニックコックス14
自然に同意しますが、二乗や対数を使用した場合、参照を提供する義務はありませんし、ここでも同様です。しかし、逆数、特に時間と速度の有用性は、(例えば)Tukey、JW 1977によって強調されました。探索的データ分析。マサチューセッツ州レディング:Addison-Wesleyと彼の論文のいくつか。1ガロンあたりのマイル数と1マイルあたりのガロン(または逆に1キロメートルあたりのリットルと1リットルあたりのキロメートル)は、自動車性能データの議論で一般的な場所です。密度とその逆数は、地理と人口統計のかなり標準的な例です。
—
ニックコックス