タグ付けされた質問 「multicollinearity」

予測変数間に強い線形関係があり、それらの相関行列が(ほぼ)特異になるような状況。この「悪条件」により、各予測子が果たしている固有の役割を判別することが困難になります。推定の問題が発生し、標準誤差が増加します。二変量が非常に高い相関予測子は、多重共線性の一例です。

2
分散共分散行列の解釈
線形モデルがModel1ありvcov(Model1)、次の行列を与えると仮定します。 (Intercept) latitude sea.distance altitude (Intercept) 28.898100 -23.6439000 -34.1523000 0.50790600 latitude -23.643900 19.7032500 28.4602500 -0.42471450 sea.distance -34.152300 28.4602500 42.4714500 -0.62612550 altitude 0.507906 -0.4247145 -0.6261255 0.00928242 この例では、このマトリックスは実際に何を表示しますか?モデルとその独立変数に対して安全に行える仮定は何ですか?

1
多重共線性とスプライン回帰に問題はありますか?
自然(制限付き)3次スプラインを使用する場合、作成される基底関数は非常に共線的であり、回帰で使用すると、非常に高いVIF(分散インフレーション係数)統計を生成し、多重共線性を示します。予測のためにモデルのケースを検討している場合、これは問題ですか?スプライン構造の性質により、常にそうなるようです。 Rの例を次に示します。 library(caret) library(Hmisc) library(car) data(GermanCredit) spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable dat<-data.frame(cbind(spl_mat,class)) cor(spl_mat) OUTPUT: x x 1.0000000 0.9386463 0.9270723 0.9109491 0.9386463 1.0000000 0.9994380 0.9969515 0.9270723 0.9994380 1.0000000 0.9989905 0.9109491 0.9969515 0.9989905 1.0000000 mod<-glm(class~.,data=dat,family=binomial()) #model vif(mod) #massively high OUTPUT: x V2 V3 V4 …

2
多重共線性への対処
パッケージのvif()方法を使用carして、モデルの入力の多重共線性の程度を計算できることを学びました。ウィキペディアから、vif値がそれより大きい場合5、入力が多重共線性の問題に苦しんでいると考えることができます。たとえば、私はlm()メソッドを使用して線形回帰モデルを開発し、vif()次のように与えます。私たちが見ることができるように、入力はub、lb、およびtb多重共に苦しんでいます。 vif(lrmodel) tb ub lb ma ua mb sa sb 7.929757 50.406318 30.826721 1.178124 1.891218 1.364020 2.113797 2.357946 多重共の問題を回避するため、私のモデルをより堅牢にするためには、私は間の相互作用をとっているubとlb、今の新しいモデルのテーブルVIFは次のとおりです。 tb ub:lb ma mb sa sb ua 1.763331 1.407963 1.178124 1.327287 2.113797 1.860894 1.891218 R^2上記の2つのケースでは、値に大きな違いはなく、1脱退CVテストのエラーにも大きな違いはありません。 私の質問は: 上記のような相互作用を取ることで多重共線性の問題を回避することは問題ありませんか? 上記のvifメソッドの結果と比較して、多重共線性の問題を提示するより良い方法はありますか。 提案をお願いします。 ありがとう。

5
独立変数を標準化すると共線性が低下しますか?
私はベイズ/ MCMCで非常に良いテキストに出くわしました。ITは、独立変数の標準化によってMCMC(メトロポリス)アルゴリズムがより効率的になることを示唆していますが、(マルチ)共線性を低下させる可能性もあります。それは本当ですか?これは私が標準としてやるべきことです(申し訳ありません)。 Kruschke 2011、ベイズデータ分析の実施。(AP) 編集:たとえば > data(longley) > cor.test(longley$Unemployed, longley$Armed.Forces) Pearson's product-moment correlation data: longley$Unemployed and longley$Armed.Forces t = -0.6745, df = 14, p-value = 0.5109 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.6187113 0.3489766 sample estimates: cor -0.1774206 > standardise <- function(x) {(x-mean(x))/sd(x)} …

1
合計が1になる比率を線形回帰の独立変数として解釈する
共線性を回避するために、1つのレベルをベースラインとしてフィットできるようにする、カテゴリ変数とそれぞれのダミー変数コーディングの概念に精通しています。また、そのようなモデルからのパラメーター推定値を解釈する方法にも精通しています。ベースラインカテゴリと比較した、カテゴリカル予測子の特定の近似レベルの結果の予測される変化。 わからないのは、合計が1になる比率である一連の独立変数をどのように解釈するかです。モデルのすべての比率を当てはめると、再び共線性が得られるため、おそらく1つのカテゴリをベースラインとして除外する必要があります。私はまた、この変数の重要性の全体的なテストのためにタイプIII SSを見ることを想定しています。ただし、これらのレベルのパラメーター推定値は、モデルに適合するか、ベースラインと見なされたものとどのように解釈しますか? 例:郵便番号レベルでは、独立変数は変成岩、火成岩、堆積岩の比率です。ご存知かもしれませんが、これらは3つの主要な岩石タイプであり、すべての岩石はこれらの岩石の1つとして分類されます。そのため、3つすべての比率の合計は1になります。結果は、それぞれの郵便番号の平均ラドンレベルです。 モデルの予測因子として変成岩と火成岩の比率を当てはめ、堆積物をベースラインとして残した場合、2つの適合レベルの全体的なタイプIII SS F検定は、全体として岩のタイプが重要かどうかを示します。結果の予測因子(平均ラドンレベル)。次に、個々のp値(t分布に基づく)を見て、一方または両方の岩石タイプがベースラインと大幅に異なるかどうかを判断できます。 ただし、パラメーターの見積もりになると、私の脳はそれらを純粋にグループ(ロックタイプ)間の結果の予測される変化として解釈することを望み続け、それらが比率として当てはまるという事実を組み込む方法を理解していません。 場合はの推定値変成岩はあったが、0.43、言う、解釈は岩が変成対の堆積岩であるとき、0.43単位で予測平均ラドンレベルが増加するということだけではありません。ただし、この解釈は、変成岩タイプの比率のある種の単位増加(たとえば、0.1)の単純なものでもありません。これは、ベースライン(堆積物)にも関連しているという事実を反映していないためです。割合変成岩は、本質的に、モデル内の他のロック・レベルのフィット感、の割合に変更火成岩を。ββ\beta そのようなモデルの解釈を提供するソースを持っている人はいますか、そうでなければここに簡単な例を提供できますか?

2
カテゴリー変数間の共線性
連続予測子に関して共線性については多くありますが、カテゴリカル予測子についてはそれほど多くはありません。以下に示すこのタイプのデータがあります。 最初の要因は遺伝的変数(対立遺伝子数)、2番目の要因は疾患カテゴリーです。明らかに遺伝子は病気に先行し、診断につながる症状を示す際の要因です。ただし、タイプIIまたはIIIの二乗和を使用した定期的な分析は、SPSSを使用した心理学で一般的に行われるように、効果を逃します。タイプIの二乗和分析では、次数に依存するため、適切な次数を入力するとそれが検出されます。さらに、タイプIIまたはIIIで十分に特定されていない、遺伝子に関連しない疾患プロセスの余分なコンポーネントがある可能性があります。以下のanova(lm1)とlm2またはAnovaを参照してください。 データの例: set.seed(69) iv1 <- sample(c(0,1,2), 150, replace=T) iv2 <- round(iv1 + rnorm(150, 0, 1), 0) iv2 <- ifelse(iv2<0, 0, iv2) iv2 <- ifelse(iv2>2, 2, iv2) dv <- iv2 + rnorm(150, 0, 2) iv2 <- factor(iv2, labels=c("a", "b", "c")) df1 <- data.frame(dv, iv1, iv2) library(car) chisq.test(table(iv1, iv2)) # quick …

1
相関性の高い変数の和と差の参照はほとんど相関性がない
私が書いた論文では、とではなくランダム変数とをモデル化して、と相関が高く、分散が等しい場合(アプリケーションでのように)に発生する問題を効果的に排除しています。レフェリーは私にレファレンスを提供してほしいと思っています。私はそれを簡単に証明できますが、アプリケーションジャーナルであるため、単純な数学的導出への参照を好みます。X − Y X Y X Yバツ+ YX+YX+Yバツ− YX−YX-YバツXXYYYバツXXYYY 誰かが適切な参照について何か提案がありますか?TukeyのEDAブック(1977)に合計と差について何かがあると思っていましたが、見つかりません。


2
最も強く関連付けられている予測子がバイナリの場合に回帰モデルの作成を開始する方法
私は、すなわち3つの変数の365観測を含むデータセットを持っているpm、tempとrain。次にpm、他の2つの変数の変化に応じての動作を確認したいと思います。私の変数は: pm10 =応答(依存) temp =予測子(独立) rain =予測子(独立) 以下は、私のデータの相関行列です。 > cor(air.pollution) pm temp rainy pm 1.00000000 -0.03745229 -0.15264258 temp -0.03745229 1.00000000 0.04406743 rainy -0.15264258 0.04406743 1.00000000 問題は、私が回帰モデルの構築を研究していたとき、加法的方法は応答変数に最も関連性の高い変数から始めることであると書かれていました。私のデータセットrainはpm(と比較してtemp)と高度に相関していますが、同時にダミー変数(rain = 1、no rain = 0)であるため、どこから始めればよいか手掛かりが得られます。2つの画像を添付しました。最初の画像はデータの散布図で、2番目の画像はpm10vsの散布図rainです。また、pm10vsの散布図を解釈することもできませんrain。誰かが私を始める方法を手伝ってくれる?

3
共線性を検出するためのさまざまなアプローチのメリットは何ですか?
共線性が私のOLS回帰の問題であるかどうかを検出したいと思います。分散インフレ係数と条件インデックスは2つの一般的に使用される指標であることを理解していますが、各アプローチのメリットやスコアがどうあるべきかについて明確なものを見つけるのは難しいと感じています。 どのアプローチを行うか、および/またはどのスコアが適切かを示す著名な情報源は、非常に役立ちます。 同様の質問が「多重共線性の特定の測定を好む理由はありますか?」で尋ねられました。しかし、理想的には、引用できるリファレンスの後にいます。

5
共線変数をどうするか
免責事項:これは宿題プロジェクトのためのものです。 私はいくつかの変数に応じて、ダイヤモンドの価格に最適なモデルを考え出そうとしていますが、今のところかなり良いモデルを持っているようです。ただし、明らかに同一線上にある2つの変数に遭遇しました。 >with(diamonds, cor(data.frame(Table, Depth, Carat.Weight))) Table Depth Carat.Weight Table 1.00000000 -0.41035485 0.05237998 Depth -0.41035485 1.00000000 0.01779489 Carat.Weight 0.05237998 0.01779489 1.00000000 TableとDepthは互いに依存していますが、それでも予測モデルに含めたいと思います。ダイヤモンドについて調べてみたところ、表と深さは、ダイヤモンドの上部を横切る長さと、ダイヤモンドの上部から下部までの距離です。ダイヤモンドのこれらの価格は美しさに関連しているようであり、美しさは関連している比率であると思われるので、私はそれらの比率を含めるつもりでした、たとえば価格を予測するには、 D e p t hを使用します。共線変数を処理するためのこの標準的な手順ですか?そうでない場合、何ですか?TableDepthTableDepth\frac{Table}{Depth} 編集:これは、深さ〜テーブルのプロットです:

4
多重共線性は本当に問題ですか?
私は最近、いくつかの予測モデリングプロジェクトに取り組んでいます。オフラインで学習したモデルに基づいてモデルを学習し、リアルタイム予測を作成しようとしています。 正則化が多重共線性の影響を減らすのに役立つことを読んだので、私は最近リッジ回帰を使い始めました。 しかし、私は今日このブログを読み ました。私は今完全に混乱しています。このブログによると、多重共線性はモデルの予測力にそれほど影響を与えません。 つまり、結局、多重共線性が問題になるのでしょうか。

1
一般化された加法モデルの分散インフレ係数
線形回帰の通常のVIF計算では、各独立変数/説明変数は、通常の最小二乗回帰では従属変数として扱われます。すなわちバツjXjX_j バツj= β0+ ∑i = 1 、i ≠ jんβ私バツ私Xj=β0+∑i=1,i≠jnβiXi X_j = \beta_0 + \sum_{i=1, i \neq j}^n \beta_i X_i 値のそれぞれについて格納される回帰とVIFは、によって決定されます nR2R2R^2んnn V私Fj= 11 − R2jVIFj=11−Rj2 VIF_j = \frac{1}{1-R^2_j} 特定の説明変数。 私の一般化加法モデルが Y= β0+ ∑i = 1んβ私バツ私+ ∑j = 1メートルsj(X私)。Y=β0+Σ私=1んβ私バツ私+Σj=1メートルsj(バツ私)。 Y=\beta_0+ \sum_{i=1}^n \beta_iX_i + \sum_{j=1}^m s_j(X_i) . このタイプのモデルに相当するVIF計算はありますか?多重共線性をテストするために滑らかな項を制御できる方法はありますか?sjsjs_j

3
重回帰における説明変数間の線形関係
私はデータ分析とRを使用したグラフィックの多重回帰の章を読んでいました:例に基づくアプローチと、(散布図を使用して)説明変数間の線形関係をチェックすることをお勧めしていることと、彼らはので、それらを変換し、いずれかをtはない、より直線的に関連になります。これの抜粋は次のとおりです。 6.3複数の回帰モデルを当てはめるための戦略 (...) すべての説明変数を含む散布図行列を調べます。(この時点では、従属変数を含めることはオプションです。)最初に、説明変数の相互のプロットで非線形性の証拠を探します。 (...) この点は、モデル検索戦略を識別します- 説明変数間の回帰関係が「単純な」線形形式に従うモデルを探します。したがって、いくつかのペアワイズプロットが非線形性の証拠を示す場合は、変換を使用して、より線形に近い関係を与えることを検討してください。この戦略に従って回帰関係を適切にモデル化することは必ずしも可能であるとは限らないかもしれませんが、これは、以下に示す理由から、検索を開始するときに従うのに適した戦略です。 (...) 説明変数間の関係がほぼ変換後の場合、おそらく変換後、応答変数に対する予測子変数のプロットを自信を持って解釈することができます。 (...) パネルに表示される(ペアワイズ)関係が線形に見えることを保証する1つ以上の説明変数の変換を見つけることができない場合があります。これは、フィットされた回帰方程式の診断プロットの解釈と、フィットされた方程式の係数の解釈の両方に問題を引き起こす可能性があります。Cook and Weisberg(1999)を参照してください。 (多重共線性のリスクがあるため)従属変数間の線形関係を積極的に追求するのではなく、心配する必要はありませんか?ほぼ線形に関連する変数を持つことの利点は何ですか? 著者は、この章の後半で多重共線性の問題に対処しますが、この推奨事項は多重共線性の回避とは相容れないようです。

2
カテゴリー変数では多重共線性が暗黙的ですか?
小さいながらも顕著な多重共の効果があった、多変量回帰モデルいじりながら、分散拡大要因によって測定されるように私は、気づい内(もちろん、参照カテゴリを除いた)カテゴリ変数のカテゴリ。 たとえば、連続変数yと、kの相互に排他的な値を持つ1つの名目カテゴリ変数xのデータセットがあるとします。これらの可能な値を0/1ダミー変数としてコーディングします。次に、回帰モデルます。ダミー変数のVIFスコアはゼロ以外であることが判明しました。実際、カテゴリの数が増えると、VIFも増えます。ダミー変数を中央に配置しても、VIFは変更されないようです。x 1、x 2、… 、x k y = b 0 + b 1 x 1 + b 2 x 2 + ⋯ + b k − 1 x k − 1 k − 1kkkx1,x2,…,xkx1,x2,…,xkx_1, x_2,\dots ,x_ky=b0+b1x1+b2x2+⋯+bk−1xk−1y=b0+b1x1+b2x2+⋯+bk−1xk−1y = b_0 + b_1x_1 + b_2x_2 + \dots + b_{k-1}x_{k-1}k − 1k−1k-1 直感的な説明は、カテゴリー変数内のカテゴリーの相互に排他的な条件がこのわずかな多重共線性を引き起こすということのようです。これは些細な発見ですか、それともカテゴリー変数を使用して回帰モデルを構築するときに考慮すべき問題ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.