平方根変換がカウントデータに推奨されるのはなぜですか?


57

カウントデータがある場合は、平方根を取ることをお勧めします。(CVのいくつかの例については、ここで@HarveyMotulskyの答え、またはここで@whuberの答えを参照してください。)一方、ポアソンとして分布した応答変数を使用して一般化線形モデルを近似する場合、ログは正規リンクです。これは、応答データのログ変換を行うようなものです(より正確には、応答分布を制御するパラメーターログ変換を行うことです)。したがって、これら2つの間には緊張があります。 λ

  • この(明らかな)矛盾をどのように調整しますか?
  • 平方根が対数よりも優れているのはなぜですか?

回答:


45

平方根は、ポアソンに対してほぼ分散安定化されます。平方根には、3追加するなど、プロパティを改善するさまざまなバリエーションがあります38平方根を取る前に、またはFreeman-TukeyX+X+1ただし、平均値も調整されることがよくあります)。

ここに画像の説明を入力してください

平方根変換は対称性をいくらか改善します23力は[1]:

ここに画像の説明を入力してください

(ポアソンのパラメーターが実際に小さくない限り)特に準正規性が必要で、不均一分散を気にしない/ 調整できる場合は2を試してください。23

y=log(y+c)0c0.40.5μ120.43

人々が別のトランスフォーメーションよりもトランスフォーメーションを選択する理由(または、トランスフォーメーションを選択しない理由)については、それは実際に達成するために何をしているのかという問題です。

[1]:Henrik Bengtssonの配布資料「Generalized Linear Models and Transformed Residuals」のプロットを模したプロットは、こちらをご覧ください (p4の最初のスライドを参照)。少しyジッタを追加し、行を省略しました。


1
(0,+)(,+)λ

2
Xy

1
+1平方根は、カウントデータを処理するための出発点にすぎません。対数も良い選択です。データは、有用で簡潔な説明を取得するのにどれがより成功したかをしばしば教えてくれます。Gung、あなたが参照する答えでは、平方根が適切な選択であったというデモンストレーションは、右図に見られる非範囲外の残差の対称分布にあります。シミュレーションのパラメーターを変更すると、対称性が維持されていることがわかります。
whuber

1
@Glen私はログが常に良い選択だとは言いませんでした。しかし、時々彼らは根より優れています。ゼロカウントが表示された場合、はい、「開始」対数が必要です。ここの他のスレッドは、開始値を取得する方法について説明しています。データにゼロカウントがない場合、ログにまったく問題はありません。
whuber

2
@Tomas Freeman-Tukeyまたは理由x+3/8xx+ccx+3/8
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.