直線性を達成するために最適な変換を選択するにはどうすればよいですか?


10

多重線形回帰を実行してから、ほとんど外挿せずに新しい値を予測します。-2から+7の範囲の応答変数と3つの予測子(約+10から+200の範囲)があります。分布はほぼ正常です。しかし、応答と予測子の関係は線形ではありません。プロット上に曲線が表示されます。たとえば、次のようになります:http : //cs10418.userapi.com/u17020874/153949434/x_9898cf38.jpg

線形性を実現するために変換を適用したいと思います。さまざまな関数をチェックし、結果のプロットを見て応答と予測子の線形関係を確認することで、応答変数を変換しようとしました。そして私は目に見える線形関係を与えることができる多くの関数があることを発見しました。たとえば、関数

t1=log(y+2.5)

t2=1log(y+5)

t3=1y+5

t4=1(y+10)3

などでも同様の結果が得られます。http//cs10418.userapi.com/u17020874/153949434/x_06f13dbf.jpgt5=1(y+3)13

予測値を逆変換します( asy=1t=1(y+10)3など)。分布は通常とほぼ同じです。y=1t1310

データに最適な変換を選択するにはどうすればよいですか?直線性を評価する定量的(そしてそれほど複雑ではない)方法はありますか?選択した変換が最良であることを証明するため、または可能であれば自動的に変換を見つけるため。

または、唯一の方法は非線形重回帰を行うことですか?


数式の書式を改善することに失敗しましたが、いくつかの間違いがあった可能性があります。確認してください。
Peter Ellis

私はあなたを信じていません。それはのために数学的に不可能であるを介してT 5同時に範囲にわたって第変数と線形関係有することが0 ... 200。これらのyの変換を計算する際に、間違いを犯した可能性があります。t1t50200y
whuber


2
あなたが正しい。このような広範囲のyの再表現がrと線形関係を保つことは驚くべきことです。それを共有してくれてありがとう。残差をプロットすると、が最も良く見え、rを再表現する必要がないことがわかります。1/(y+5)rplot(lm(1/(y+5)~r))
whuber

回答:


14

これはいくぶん芸術的なことですが、常に試すことができる標準的で簡単なことがいくつかあります。

最初に、従属変数()を再表現して、残差を正規化します。これは、この例では実際には当てはまりません。この例では、点は、散乱がほとんどない滑らかな非線形曲線に沿って表示されます。そこで、次のステップに進みます。y

次に、独立変数()を再表現して、関係を線形化します。これを行うには、シンプルで簡単な方法があります。曲線に沿って、できれば両端と中央の3つの代表点をピックします。最初の図からIは、順序対読み取るR Y = 10 7 90 0 、及び180 - 2 。それ以外の情報がない場合、rは常に正であるように見えるので、Box-Cox変換を検討することをお勧めします。r(r,y)(10,7)(90,0)(180,2)r 様々な力のためのp、通常の倍数になるように選択 1 / 2または 1 / 3との間に、典型的に - 1 1。( p 0に近づくときの制限値は log r です。)この変換は、最初の2点間の勾配が2番目のペア間の勾配と等しい場合、近似線形関係を作成します。r(rp1)/pp1/21/311p0log(r)

例えば、形質転換されていないデータの傾きは、 = - 0.088- 2 - 0 /180 - 90 = - 0.022。これらはかなり異なります。1つは他の約4倍です。試みP = - 1 / 2の勾配が得られる0 - 7 /90 - 1 /(07)/(9010)0.088(20)/(18090)0.022p=1/2にうまくなど、-16.6及び-32.4は:今、それらの一つが改善されており、唯一の二倍のものです。(スプレッドシートが便利である)このように続けて、私はそれを見つけるのpを0の斜面は今:うまく機能-7.3-6.6を、ほぼ同じ値。その結果、フォームのモデル試してみてくださいY=α+βログRを。次に繰り返します。線を当てはめ、残差を調べ、yの変換を特定します。(07)/(901/211/2101/211/2)16.632.4p07.36.6y=α+βlog(r)y それらをほぼ対称にし、繰り返します。

y


Box-Cox変換のアドバイスをありがとうございます。lm(1 /(y + 5)〜r)のR-2乗と他の関数のlmをチェックして、これらのR-2乗を比較することは意味がありますか?
nadya 2012年

rR2rR2

答えてくれてありがとう!独立変数を変換するつもりはありません
nadya

y

@Erichその本のすべての部分は非常にやりがいがあります。結局のところ、鉛筆と紙で何かできるなら、それを行うようにコンピュータをプログラムすることができます:-)。多くの場合、単一の変数を使用して、(その経験的分布の)対称性のために変数を変換すると便利です。チューキーはこれを「少しの取​​り引き」と呼んでいます。このような変換を特定する簡単な方法については、セクション3E「迅速な調査」で説明します。N文字の要約を見ただけで何がわかるかを示しています(Tukeyは7文字または9文字の要約を提案しています)。そのスキルを習得することは、コンピュータプログラムに計算を実行させるよりも価値があります。
whuber

1

元のスケールの応答変数(または、応答変数の残差となるもの)が正規の分布を持っている場合、それを変換して他の変数との線形関係を作成すると、それはもはや正常ではなくなりますまた、分散と平均値の関係も変化します。ですから、あなたの説明のその部分からは、応答を変換するよりも非線形回帰を使用するほうがよいと思います。それ以外の場合は、応答の線形変換後に、より複雑なエラー構造が必要になります(ただし、これは判断の問題であり、グラフィカルな方法を使用して確認する必要があります)。

または、説明変数の変換を調べます。直線変換だけでなく、2次項を追加することもできます。

より一般的には、変換の基礎として何を使用すべきかを示唆する既存の理論がない場合、変換は科学というより芸術です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.