Box-Cox変換されたデータで、元の単位で回答を表現します


13

一部の測定では、分析の結果が変換されたスケールで適切に表示されます。ただし、ほとんどの場合、元の測定スケールで結果を表示することが望ましいです(そうでない場合、作業は多かれ少なかれ価値がなくなります)。

たとえば、ログ変換されたデータの場合、ログに記録された値の平均は平均のログではないため、元のスケールでの解釈に問題が発生します。対数スケールでの平均の推定値の逆対数をとっても、元のスケールでの平均の推定値は得られません。

ただし、ログ変換されたデータに対称分布がある場合、次の関係が成り立ちます(ログは順序を保持するため)。

Mean[log(Y)]=Median[log(Y)]=log[Median(Y)]

(ログ値の平均の逆対数は、測定の元のスケールの中央値です)。

したがって、元の測定スケールでの中央値の差(または比率)についてのみ推測できます。

母集団がほぼ標準偏差でほぼ正常である場合、2サンプルのt検定と信頼区間は最も信頼性が高いBox-Coxため、正規性の仮定に変換を使用するように誘惑される可能性があります(変換を安定化する分散でもあると思います)。

ただし、Box-Cox変換されたデータにt-toolsを適用すると、変換されたデータの平均の違いに関する推論が得られます。それらを元の測定スケールでどのように解釈できますか?(変換された値の平均は、変換された平均ではありません)。つまり、変換されたスケールで平均の推定値の逆変換を行っても、元のスケールでの平均の推定値は得られません。

この場合、中央値についてのみ推論することもできますか?(元のスケールで)平均に戻ることができる変換がありますか?

この質問は最初はコメントとしてここに投稿されました

回答:


11

元の変数の平均に関する明確な推論が必要な場合は、Box-Cox変換を使用しないでください。IMO Box-Cox変換は、変換された変数に独自の解釈がある場合に最も役立ちます。Box-Cox変換は、分析に適切なスケールを見つけるのに役立ちます-これは驚くほどよくあることです。この方法で見つけた2つの予想外の指数は、1/3(応答変数が膀胱容積の場合)と-1(応答変数が1分あたりの呼吸数の場合)でした。

これに対するおそらく唯一の例外は、ログ変換です。対数スケールの平均は、元のスケールの幾何平均に対応します。これは少なくとも明確に定義された量です。


まあ、あなたも他の例外があります。-1は調和平均に対応します、...
kjetil b halvorsen

9

Box-Cox変換が対称分布を生成する場合、変換されたデータの平均は元のスケールの中央値に逆変換されます。これは、Box-Cox変換、IHS変換などを含むあらゆる単調な変換に当てはまります。変換されたデータの平均に関する推論は、元のスケールの中央値に関する推論に対応します。

元のデータが歪んでいる(または、そもそもBox-Cox変換を使用していなかった)ので、なぜ平均についての推論が必要なのですか?この状況では、中央値を使用する方が理にかなっていると思っていたでしょう。これが「元のスケールでの解釈の問題」と見なされる理由がわかりません。


λ

ありがとうございました。たぶん、サンプル(ほぼ対称な分布に従うべきだと思われる母集団から)が偶然偶然歪んだためかもしれません。
ジョージドンタス

4
環境リスク評価によって、手段に関係なく推論する必要があるという良い例が得られます。大幅に簡素化するために、土地を公園に発展させることを計画していると想像してください。関心のある化合物について土壌をテストすると、よくあることですが、その濃度がほぼ対数正規分布していることがわかります。それにもかかわらず、公園を使用している人々は、これらの土壌に直接さらされる可能性がありますが、動き回るときに効果的にランダムに均一に土壌を「サンプリング」します。経時的な暴露は、幾何平均ではなく算術平均濃度になります。
whuber

1
時々、何かの総量の定式化から生じる問題に興味があります。平均がわかっている場合は、平均から合計に移動できます(観測値の数で乗算)。中央値から合計に移動する方法はありません!
ジョージドンタス

6

元のスケールで平均について推論したい場合は、正規性の仮定を使用しない推論の使用を検討できます。

ただし、注意してください。2つのサンプルの分散が異なる場合、リサンプリング(置換テストまたはブートストラップのいずれか)による手段の単純な比較を通じて単純に差し込むことは、分析で分散が等しい(および変換されたスケールの等しい分散が差分分散であると仮定する場合)問題になる可能性があります手段が異なる場合は元のスケールで)。そのようなテクニックは、あなたが何をしているのかを考える必要性を避けません。

f(x+h)t[μ+(Yμ)]Yμσ2t()

t(μ)

-

最も簡単なケースは、対数スケールで正規性があり、したがって元のスケールで対数正規である場合です。分散がわかっている場合(これは非常にまれにしか発生しません)、元のスケールで対数正規CIおよびPIを構築し、関連する量の分布の平均から予測平均を与えることができます。

tt

あなたが答えようとしている質問を正確に慎重に考える必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.