平方根、対数などの一般的な変換以外に、他にどのような正規化変換が一般的に使用されていますか?


10

テストスコアの分析(教育や心理学など)では、一般的な分析手法では、データが正規分布していると想定することがよくあります。ただし、スコアが通常よりも大幅に逸脱する傾向があります。

平方根、対数、正のスキューを減らすための相互変換、負のスキューを減らすための上記のバージョンの反映、レプトクール分布の二乗など、いくつかの基本的な正規化変換に精通しています。アークサイン変換とパワー変換について聞いたことがありますが、それらについてはあまり詳しくありません。

では、アナリストが一般的に使用しいる他の変換について知りたいのですが。

回答:


5

ボックス・コックス変換は、あなたが引用したものの多くが含まれています。詳細については、この回答を参照してください。

更新:これらのスライドは、Box-Cox変換のかなり良い概要を提供します。


Box-Cox変換されたデータにtツールを適用すると、変換されたデータの平均値の違いに関する推論が得られます。それらを元の測定スケールでどのように解釈できますか?(変換された値の平均は、変換された平均ではありません)。言い換えると、(私が正しい場合)、変換されたスケールでの平均の推定値の逆変換を行っても、元のスケールでの平均の推定値は得られません。
ジョージドンタス、2013

@ gd047、一部の検定では、データではなく平均の分布の正規性を仮定しています。t検定は、基礎となるデータに対してかなり堅牢な傾向があります。しかし、あなたは正しいです。変換後のテストでは、結果は逆変換後に報告され、解釈は非常に問題になる可能性があります。それは、データがどのように「非正常」であるかにかかっています。たとえば、変換や、解釈が容易なログ変換を適用せずに済むでしょうか。それ以外の場合、それは実際の変換とドメインに関する文脈であり、私は本当に良い答えがありません。他の人が言っていることを確認するように頼む価値があるかもしれませんか?
ARS

10

最初のステップは、するべきである理由を尋ねるあなたの変数が非正規分布しています。これは明るいかもしれません。私の経験からの一般的な発見:

  • 能力テスト(たとえば、試験、知能テスト、入学テスト)は、天井効果がある場合はマイナスに、床効果がある場合はプラスに歪む傾向があります。どちらの調査結果も、テストの難易度レベルがサンプルに対して最適化されておらず、能力を最適に区別するには難しすぎるか難しすぎることを示唆しています。また、対象の潜在変数が正規分布している可能性があることを意味しますが、テストの構造により、測定された変数にスキューが生じています。
  • 能力テストには、スコアが低いという点で外れ値があることがよくあります。要するに、テストをうまく行うには多くの方法があります。特に、これは、適性の欠如と努力の欠如のいくつかの組み合わせが非常に低いテストスコアを作成するために組み合わされた学生のごく一部がいる試験で見られることがあります。これは、関心のある潜在変数におそらくいくつかの外れ値があることを意味します。
  • 自己報告テスト(例:性格、態度テストなど)に関連して、サンプルが本質的にスケールが高い場合(例:ほとんどの人が満足しているために生活満足度の分布が負に歪んでいる場合)またはスケールテストが適用されているサンプルとは異なるサンプル用に最適化されています(たとえば、非臨床サンプルにうつ病の臨床指標を適用する)。

この最初のステップは、テストの設計変更を提案する場合があります。これらの問題を事前に認識している場合は、問題があると見なされれば、それらを回避するようにテストを設計することもできます。

第二段階は、することです何をすべきかを決定しますが、非正規のデータを持っている状況で。変換は可能な戦略の1つにすぎないことに注意してください。非正規性に関する以前の回答からの一般的なアドバイスを繰り返します

  • 残差の正規性を前提とする多くの手順は、残差の正規性の軽度の違反に対して堅牢です。
  • ブートストラップは一般的に良い戦略です
  • 変換は、別の優れた戦略です。私の経験から、能力と自己報告心理テストで一般的に発生する軽度のスキューは、通常、対数、平方、または逆変換(または逆の等価物)を使用して、正規性に近い分布にかなり容易に変換できます。

9

John Tukeyは、EDAに関する本の中で、変換について体系的に説明しています。Box-Coxファミリー(アフィンスケーリングされた累乗変換)に加えて、比率(基本的にx /(1-x)の累乗)と「開始」カウント(カウントされたデータに正のオフセットを追加)の「フォールド」変換のファミリーを定義します。それらを変換する前に)。本質的にロジットを一般化する折り返し変換は、テストスコアに特に役立ちます。

まったく異なる流れで、Johnson&Kotzの分布に関する本では、カイ二乗の立方根変換など、テスト統計を近似正規性(または他のターゲット分布)に変換することを目的とした多くの変換が提供されています。この資料は、データが特定の分布に従うと予想される場合に役立つ変換のアイデアの優れた情報源です。


2

単純なオプションは、スコア自体ではなく、スコアの合計を使用することです。分布の合計は正規化する傾向があります。たとえば、教育では、一連のテストで生徒のスコアを追加できます。

もちろん、別のオプションは、過小評価され、十分に使用されていない、正規性を前提としない手法を使用することです。


1
分布が正規化する傾向があるためには、合計を正規化する必要がある(たとえば、平均スコアを使用する)必要があると思います。

1
はい、そうです。私の例では、クラスに同じ数の生徒がいると仮定しましたが、これは現実的ではありません。ありがとうございました。
Carlos Accioly、2010

1

バツFY LaメートルbertW×F

バツNμσ2θ=μバツσバツδαα1

データ変換として、これは変換が全単射(歪んだ場合はほぼ全単射)であり、ランベルトのW関数(したがって、ランベルトW x Fという名前)を使用して明示的に取得できるため、興味深いものになります。これは、データから歪度を削除し、重い尾を(全単射的に)削除することもできることを意味します。

LambertW Rパッケージを使用して、それを使用する方法の多くの例を示すマニュアルとともに、それを試すことができます。

アプリケーションについては、これらの投稿を参照してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.