共線変数をどうするか

11

免責事項：これは宿題プロジェクトのためのものです。

私はいくつかの変数に応じて、ダイヤモンドの価格に最適なモデルを考え出そうとしていますが、今のところかなり良いモデルを持っているようです。ただし、明らかに同一線上にある2つの変数に遭遇しました。

>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
                   Table       Depth Carat.Weight
Table         1.00000000 -0.41035485   0.05237998
Depth        -0.41035485  1.00000000   0.01779489
Carat.Weight  0.05237998  0.01779489   1.00000000

TableとDepthは互いに依存していますが、それでも予測モデルに含めたいと思います。ダイヤモンドについて調べてみたところ、表と深さは、ダイヤモンドの上部を横切る長さと、ダイヤモンドの上部から下部までの距離です。ダイヤモンドのこれらの価格は美しさに関連しているようであり、美しさは関連している比率であると思われるので、私はそれらの比率を含めるつもりでした、たとえば価格を予測するには、を使用します。共線変数を処理するためのこの標準的な手順ですか？そうでない場合、何ですか？ $\frac{Table}{Depth}$

編集：これは、深さ〜テーブルのプロットです：ここに画像の説明を入力してください

— マイクフリン
ソース

1

興味深い質問の+1ですが、いいえ、これは共線形変数を処理するための標準的な手順ではありません。うまくいけば、誰かがあなたに良い答えを与えるでしょう。それはあなたのケースではまだ良いことかもしれません ...

— ピーターエリス

3

これについて奇妙なことは、-0.4の相関関係が、上部を横切って長いダイヤモンドは上部から下部へと短くなることを示唆しているようです。これは直観に反するようです-それが正しいと確信していますか？

— Peter Ellis

c o r

$cor$

T a b l e

$Table$

D e p t h

$Depth$

@PeterEllisはい、これは実際のデータセットだと言われました。Depth〜Tableのプロットを見ると、分散が高いTable値にファンアウトしていることが原因である可能性があります。

— マイクフリン

14

これらの変数は相関しています。

その相関行列によって示される線形関連の範囲は、変数が共線性であると見なされるのに十分なほど高くはありません。

この場合、これら3つの変数すべてを典型的な回帰アプリケーションに使用できれば非常にうれしいです。

多重共線性を検出する1つの方法は、相関行列のコレスキー分解をチェックすることです。多重共線性がある場合、ゼロに近い対角要素がいくつかあります。ここにあなた自身の相関行列があります：

> chol(co)
     [,1]       [,2]       [,3]
[1,]    1 -0.4103548 0.05237998
[2,]    0  0.9119259 0.04308384
[3,]    0  0.0000000 0.99769741

（対角線は常に正でなければなりませんが、一部の実装では、累積された切り捨てエラーの影響でわずかに負になる場合があります）

ご覧のように、最小の対角線は0.91です。これは、ゼロからの長い道のりです。

対照的に、これはほぼ共線的なデータです：

> x<-data.frame(x1=rnorm(20),x2=rnorm(20),x3=rnorm(20))
> x$x4<-with(x,x1+x2+x3+rnorm(20,0,1e-4))
> chol(cor(x))
   x1         x2         x3           x4
x1  1 0.03243977 -0.3920567 3.295264e-01
x2  0 0.99947369  0.4056161 7.617940e-01
x3  0 0.00000000  0.8256919 5.577474e-01
x4  0 0.00000000  0.0000000 7.590116e-05   <------- close to 0.

— Glen_b-モニカの復活
ソース

ありがとう、私は単に「相関」と「共線性」の間で混乱していたと思います

— マイクフリン

@kingledion個人に質問への回答を求めるためにコメントを使用しないでください。

— Glen_b-2018

6

このダイヤカットの回路図は質問に洞察を追加するかもしれないと思いました。コメントに画像を追加できないため、回答にしました...

ここに画像の説明を入力してください

PS。@PeterEllisのコメント：「上から横に長いダイヤモンドは、上から下に向かって短い」という事実は、このように理解できるかもしれません。すべてのカットされていないダイヤモンドがほぼ長方形であると仮定します（たとえば）。次に、カッターはこの外接する長方形でカットを選択する必要があります。これはトレードオフをもたらします。幅と長さの両方が増加する場合は、大きなダイヤモンドを使用します。可能ですが、希少で高価です。理にかなっていますか？

— curious_cat
ソース

2

線形回帰で比率を使用することは避けてください。基本的に、あなたが言っていることは、これらの2つの変数に対して線形回帰が行われた場合、それらは切片なしで線形に相関することです。これは明らかにそうではありません。参照：http : //cscu.cornell.edu/news/statnews/stnews03.pdf

また、彼らは潜在的な変数、つまりダイヤモンドのサイズ（体積または面積）を測定しています。両方の変数を含めるのではなく、データを表面積/体積メジャーに変換することを検討しましたか？

その深度の残差プロットとテーブルデータを投稿する必要があります。2つの間の相関関係はとにかく無効になる場合があります。

— TLJ
ソース

1

相関から、表と幅が実際に相関していると結論付けるのは困難です。+ 1 / -1に近い係数は、それらが同一線上にあると言います。また、サンプルサイズにも依存します。データがある場合は、それを使用して確認します。

共線変数を処理する標準的な手順は、それらの1つを削除することです...一方が他方を決定することを知っているcos。

— サブスパシアン
ソース

1

これに同意するかどうかはわかりません。相関はr =-。41であり、これは相関の妥当な大きさだと思います。可能性のあるN（プロットを一見すると）を考えると、rは非常に「有意」であると予想します。Table＆Depthが「コリニア」と呼ばれるほど十分に相関しているかどうかは、定義の問題になります（ただし、問題のあるコリニアリティとは言いませんが）。最後に、rが| 1 | に非常に近い場合を除いて、変数の1つを単に削除することに注意します。（例：〜.99）-それがあなたの意味するものかどうかはわかりません。

— ガン-モニカの復活

1

テーブルと深度がモデルの共線性を引き起こすと思う理由は何ですか？相関行列だけでは、これらの2つの変数が共線性の問題を引き起こすとは言いがたいです。共同F検定は、モデルに対する両方の変数の寄与について何を伝えますか？curious_catが言及したように、関係が線形でない場合、ピアソンは相関関係の最良の尺度ではない可能性があります（おそらくランクベースの尺度ですか？）。VIFと許容誤差は、共線性の程度を定量化するのに役立ちます。

それらの比率を使用するあなたのアプローチは適切だと思います（ただし、共線性の解決策としてではありません）。この図を見たとき、私はすぐに健康研究における腰と腰の比率の一般的な尺度を考えました。ただし、この場合はBMI（weight / height ^ 2）に似ています。比があなたの聴衆ですぐに解釈可能で直感的であるならば、私はそれを使わない理由を私は見ません。ただし、共線性の明確な証拠がない限り、モデルで両方の変数を使用できる場合があります。

— トーマス・スペイデル
ソース