回答:
一般に、パラメトリック回帰/ GLMは、変数と各X変数の間の関係が線形であり、モデルを適合させた後の残差は正規分布に従い、残差のサイズはほぼ同じままであると仮定しますフィット線に沿って。データがこれらの仮定に適合しない場合、変換が役立ちます。
それがあればという直感的である必要がありに比例し、X 2、その後平方応援Yは仮定し、より良いフィットはそれがより多くの差異を説明することをモデルにつながる、この関係をlinearises(持ち高R 2)。平方根Yは、Xの値として残差のサイズが徐々に大きくなるという問題がある場合にも役立ちます増加します(つまり、フィットしたラインの周りのデータポイントの散布は、それに沿って移動するにつれてより顕著になります)。平方根関数の形状を考えてみましょう。最初は急激に増加しますが、その後飽和します。そのため、平方根変換を適用すると、小さい数値は膨らみますが、大きい数値は安定します。そのため、低い値で小さな残差を近似線から押し出し、高いX値で大きな残差を線に向かって押しつぶすと考えることができます。(これは適切な数学ではなく精神的な速記です!)
Dmitrijとocramが言うように、これは特定の状況で役立つ可能性のある変換の1つにすぎず、Box-Cox式などのツールは最も有用な変換を選択するのに役立ちます。モデルを近似するときは、近似値に対する残差のプロット(および通常の確率プロットまたは残差のヒストグラム)を常に見る習慣を身に付けることをお勧めします。これらから、どのような変換が役立つかを確認できることがよくあります。
平方根変換は、Box-Cox累乗変換の特別な場合にすぎません(Pengfi Liによる概要を読むと便利です。ここにあります)、センタリングを省略します。
Box-Cox変換の目的は、線形モデルの保持に関する通常の仮定を確実にすることです。すなわち、。
ただし、このアプリオリ固定値は最適ではない可能性があります(おそらく最適ではありません)。R では、線形回帰に関与する各変数または使用するデータのBox-Cox変換の最適値を推定するのに役立つcar
ライブラリの関数を検討powerTransform
できます(詳細についてはexample(powerTransform)
、を参照してください)。
変数がポアソン分布に従うと、平方根変換の結果はガウスに非常に近くなります。
Bray-Curtisを使用して計算された距離行列は、通常、一部のデータのメトリックではないため、固有値が負になります。この問題を解決するための解決策の1つは、変換(対数、平方根、または二重平方根)することです。