データに平方根変換を使用する理由は何ですか?


15

平方根でデータを変換するために、私が考えることができる理由はありますか?私がいつも観察しているのは、R ^ 2が増加するということです。しかし、これはおそらくデータをセンタリングするためだけです!どんな考えでも大歓迎です!


私はこの質問に答えているし、ここではより一般的な質問はstats.stackexchange.com/questions/18844/...
IrishStat

3
従属変数が異なる場合、R 2乗は比較できません。

回答:


13

一般に、パラメトリック回帰/ GLMは、変数と各X変数の間の関係が線形であり、モデルを適合させた後の残差は正規分布に従い、残差のサイズはほぼ同じままであると仮定しますフィット線に沿って。データがこれらの仮定に適合しない場合、変換が役立ちます。 YX

それがあればという直感的である必要がありに比例し、X 2、その後平方応援Yは仮定し、より良いフィットはそれがより多くの差異を説明することをモデルにつながる、この関係をlinearises(持ち高R 2)。平方根Yは、Xの値として残差のサイズが徐々に大きくなるという問題がある場合にも役立ちますYX2YR2YX増加します(つまり、フィットしたラインの周りのデータポイントの散布は、それに沿って移動するにつれてより顕著になります)。平方根関数の形状を考えてみましょう。最初は急激に増加しますが、その後飽和します。そのため、平方根変換を適用すると、小さい数値は膨らみますが、大きい数値は安定します。そのため、低い値で小さな残差を近似線から押し出し、高いX値で大きな残差を線に向かって押しつぶすと考えることができます。(これは適切な数学ではなく精神的な速記です!)XX

Dmitrijとocramが言うように、これは特定の状況で役立つ可能性のある変換の1つにすぎず、Box-Cox式などのツールは最も有用な変換を選択するのに役立ちます。モデルを近似するときは、近似値に対する残差のプロット(および通常の確率プロットまたは残差のヒストグラム)を常に見る習慣を身に付けることをお勧めします。これらから、どのような変換が役立つかを確認できることがよくあります。


どうもありがとう!私はboxcoxの機能を知っていますが、sqrt変換が理にかなっている実際的な理由について疑問に思っていました!ありがとうございました!
-MarkDollar

1
エラーの分散がシリーズのレベルに線形に関連している場合、対数変換を行います。標準偏差が系列のレベルに線形に関連している場合、平方根変換を行います。選択は、yのレベルに関連する残差のサイズとは関係がなく、すべてが1番目と2番目のモーメントの結合/分離に関係します。
IrishStat

1
フレイア、メンタルショートハンド>>適切な数学のために+1。その直感は、L.5-metrics-for-clusteringを使用する理由でもありますか?
デニス

こんにちはDenis、私はクラスタリングについて何も知らないのではないかと心配しています。
フレイアハリソン

10

平方根変換は、Box-Cox累乗変換の特別な場合にすぎません(Pengfi Liによる概要を読むと便利です。ここにあります、センタリングを省略します。λ=0.5

Box-Cox変換の目的は、線形モデルの保持に関する通常の仮定を確実にすることです。すなわち、yN(Xβ,σ2In)

ただし、このアプリオリ固定値は最適ではない可能性があります(おそらく最適ではありません)。R では、線形回帰に関与する各変数または使用するデータのBox-Cox変換の最適値を推定するのに役立つcarライブラリの関数を検討powerTransformできます(詳細についてはexample(powerTransform)、を参照してください)。


5

変数がポアソン分布に従うと、平方根変換の結果はガウスに非常に近くなります。


この主張についていくつかの議論をしていただけますか?
-utdiscant

これは、パラメータの特定の値を持つ個々の配信のために非常に役立つ本当にdoesntが、それが作る分布の家族に近い通常の家族に、パラメータが変化した場合に得られるが、一定分散を持つ
HalvorsenのはKjetil B


3

平方根を取ることは、回帰問題で非正規変数を正規変数のように見せることを提唱する場合があります。対数は、別の一般的な可能な変換です。


0

Bray-Curtisを使用して計算された距離行列は、通常、一部のデータのメトリックではないため、固有値が負になります。この問題を解決するための解決策の1つは、変換(対数、平方根、または二重平方根)することです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.