著者は、論文をレビューする際に、「正規分布の前提条件を満足するためにtテストが行われる前に、自然対数を使用して、歪んだ分布を示す連続的な結果変数が変換された」と述べています。
これは、特に基礎となる分布が必ずしも対数正規分布ではない場合に、非正規データを分析するのに受け入れられる方法ですか?
これは非常にばかげた質問かもしれませんが、これを以前に見たことはありません。
著者は、論文をレビューする際に、「正規分布の前提条件を満足するためにtテストが行われる前に、自然対数を使用して、歪んだ分布を示す連続的な結果変数が変換された」と述べています。
これは、特に基礎となる分布が必ずしも対数正規分布ではない場合に、非正規データを分析するのに受け入れられる方法ですか?
これは非常にばかげた質問かもしれませんが、これを以前に見たことはありません。
回答:
正常ではないデータに遭遇した場合、通常、ある種の変換(対数、平方根などを使用)を適用しようとするのが一般的です。対数は、ゆがんだデータに対してかなり頻繁に良い結果をもたらしますが、この特定のケースで機能するという保証はありません。変換されたデータを分析するときは、上記の@whubersのコメントにも留意する必要があります。「対数のt検定は、変換されていないデータのt検定でもノンパラメトリック検定でもありません。 (通常の)算術平均ではありません。」
正常性への変換の後には、常に正常性の仮定を調査し、変換されたデータが「十分に正常」に見えるかどうかを評価する必要があります。これは、たとえばヒストグラム、QQプロット、および正常性のテストを使用して実行できます。t検定は、歪度の形での正規性からの逸脱に特に敏感であるため、スキューの代替に向けられた正規性の検定が望ましいでしょう。ピアソンのサンプルの歪度は、この場合に適した検定統計量です。
ほとんどの場合機能するため、変換(対数など)を選択するよりも、指定されたデータを使用して変換を選択するためにBox-Coxプロシージャを使用することを好みます。ただし、これにはいくつかの哲学的な問題があります。特に、使用する変換を選択する際にサンプルからの情報を使用したため、これがt検定の自由度の数に影響するかどうか。
最後に、変換後のt検定または従来のノンパラメトリック検定を使用する代わりに、t検定のブートストラップアナログを使用することをお勧めします。正規性の仮定を必要とせず、変換されていない手段についてのテストです(他のことについてではありません)。