タグ付けされた質問 「multicollinearity」

予測変数間に強い線形関係があり、それらの相関行列が(ほぼ)特異になるような状況。この「悪条件」により、各予測子が果たしている固有の役割を判別することが困難になります。推定の問題が発生し、標準誤差が増加します。二変量が非常に高い相関予測子は、多重共線性の一例です。

1
変数と共線性の標準化
共線性は、さまざまな種類の回帰問題で特定の問題を引き起こす可能性があります。特に、パラメーター推定値の分散が大きくなり、不安定になる可能性があります。 これに対処するために、リッジ回帰、部分最小二乗回帰、主成分回帰、変数の削除、より多くのデータの取得など、さまざまな方法が提案されています。 物議を醸している1つの方法は、独立変数を標準化またはスケーリングすることであり、さまざまな専門家がそれが良い(例:ガルシア)または悪い(例:ベルズリー)アイデアであると述べています。Belsleyの問題は、(非技術的な用語では)IVの変更が問題を敷居の下に押しやっているだけのようです。しかし、他の専門家は同意しないようです。そして、作者は自分の立場を擁護することにかなり熱くなる傾向があります。 (共線性診断に関する)論文を作成したとき、ベルズリーの主張は説得力のあるものでしたが、それはずっと前のことです(1999年に学位を取得しました)。 専門家のガイダンス、または公平である現在のレビュー記事を探しています。

3
多重共線性が存在する場合の線形回帰係数の統計的有意性の決定
人口サイズの異なる都市がたくさんあり、都市の酒屋の数とDUIの数の間に正の線形関係があるかどうかを確認したいとします。推定回帰係数のt検定に基づいて、この関係が重要であるかどうかを判断しています。 今明らかにポップ。都市のサイズは、DUIの数と酒屋の数の両方と正の相関があります。したがって、酒屋だけで単純な線形回帰を実行し、その回帰係数が統計的に有意であるかどうかを確認すると、多重共線性の問題に遭遇し、酒屋のDUIへの影響を過大評価します。 これを修正するには、どちらの方法を使用すればよいですか? 1人あたりの酒屋の値を取得して回帰するためには、市内の酒屋の数を人口で割る必要があります。 酒屋とサイズの両方に回帰し、サイズを制御するときに酒屋の係数が有意であるかどうかを確認する必要があります。 他の方法? 私は正直にどちらがより賢明に見えるかを決めることができません。私は彼らの間で動揺します、私がそれが正しい方法であると自分に納得させることができると思うものに依存します。 一方で、DUIは個人によってコミットされるため、1人あたりの酒屋は適切な変数のように見えますが、統計的に厳密ではないようです。一方、サイズの制御は統計的に厳密であるように見えますが、間接的です。さらに、1人あたりの酒類の保存量を計算した後に再スケーリングすると、2つの方法の間で非常によく似た回帰係数が得られますが、方法1ではより小さなp値が生成されます。

4
コックスハザードモデルの生存曲線を解釈するにはどうすればよいですか?
コックス比例ハザードモデルから生存曲線をどのように解釈しますか? このおもちゃの例ではage、kidneyデータの変数にcox比例ハザードモデルがあり、生存曲線を生成するとします。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() たとえば、時間、どのステートメントが正しいですか?または両方が間違っていますか?200200200 ステートメント1:被験者は20%残ります(たとえば、人がいる場合、200日目までに、およそ200人が残っているはずです)。 100010001000200200200200200200 ステートメント2:特定の人に対して、彼/彼女は200日目に生存する可能性がます。20%20%20\%200200200 βTxβTx\beta^Tx

1
線形回帰の標準化された
私はさまざまな結果を予測するために重回帰を適用した記事の結果を解釈しようとしています。しかし、「S(標準B係数は以下のように定義β X 1 = B 、X 1 ⋅ S D X 1ββ\betaここで、yは従属変数、x1は予測子です)報告されたものは、報告されたR2と一致しないようです。βx1=Bx1⋅SDx1SDyβx1=Bx1⋅SDx1SDy\beta_{x_1} = B_{x_1} \cdot \frac{\mathrm{SD}_{x_1}}{\mathrm{SD}_y}yyyx1x1x_1R2R2R^2 -0.83、-0.29、-0.16、-0.43、0.25、および-0.29のにもかかわらず、報告されたR 2は0.20のみです。ββ\betaR2R2R^2 また、3つの予測値:体重、BMI、および脂肪%は、マルチコリニアであり、r = 0.8〜0.9の周りで性別内で相互に相関しています。 あるこれらと値の妥当なβさん、または間にはストレートな関係が存在しないβさんとR 2は?R2R2R^2ββ\betaββ\betaR2R2R^2 さらに、マルチコリニア予測子に関する問題は、4番目の予測子(VO2max)のに影響を与える可能性があります。ββ\beta

3
無相関だが線形従属変数のセット
相関はないが線形従属である変数のセットを持つことは可能ですか?KKK すなわち および∑ K i = 1 a i x i = 0cor(xi,xj)=0cor(xi,xj)=0cor(x_i, x_j)=0∑Ki=1aixi=0∑i=1Kaixi=0 \sum_{i=1}^K a_ix_i=0 はいの場合、例を書くことができますか? 編集:答えから、それは不可能であるということになります。 それは、少なくとも可能であろうとここで、ρは、から推定推定された相関係数であるn個の変数のサンプルとvがある変数でありますx iとは無相関。P(|ρ^xi,xj−ρ^xi,v|&lt;ϵ)P(|ρ^xi,xj−ρ^xi,v|&lt;ϵ)\mathbb{P}(|\hat \rho_{x_i, x_j}-\hat \rho_{x_i, v}|<\epsilon)ρ^ρ^\hat\rhonnnvvvxixix_i x K = 1のようなものを考えていますK&gt;&gt;0xK=1K∑K−1i=1xixK=1K∑i=1K−1xix_K=\dfrac{1}{K} \sum_{i=1}^{K-1} x_i K&gt;&gt;0K&gt;&gt;0K>>0

1
中心変数の階層回帰分析を使用した相互作用項?どの変数を中心にすべきですか?
私は階層回帰分析を実行していますが、少し疑問があります: 中心に置かれた変数を使用して交互作用項を計算しますか? 従属変数を除いて、データセットにあるすべての連続変数を中央に配置する必要がありますか? いくつかの変数をログに記録する必要がある場合(それらのsdは平均よりもはるかに高いため)、次に、記録されたばかりの変数または最初の変数を中央に配置しますか? 例:変数 "ターンオーバー" ---&gt;ログされたターンオーバー(sdが平均と比較して高すぎるため)---&gt; Centered_Turnover? または、直接ターンオーバー-&gt; Centered_Turnoverになります(そして、これを使用します) ありがとう!!

3
回帰でさらに1つの変数を追加するときに、はるかに大きなマグニチュードで符号反転
基本的なセットアップ: 回帰モデル: ここで、Cは制御変数のベクトルです。y=constant+β1x1+β2x2+β3x3+β4x4+αC+ϵy=constant+β1x1+β2x2+β3x3+β4x4+αC+ϵy = \text{constant} +\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+\alpha C+\epsilon 私は興味があり、とが負になることを期待しています。ただし、モデルには多重共線性の問題があり、相関係数は、corr(、 0.9345、corr(、 0.1765、corr(、 0.3019によって与えられます。β 1 β 2 、X 1 、X 2)= X 1 X 3)= X 2 X 3)=ββ\betaβ1β1\beta_1β2β2\beta_2x1x1x_1x2)=x2)=x_2)=x1x1x_1x3)=x3)=x_3)=x2x2x_2x3)=x3)=x_3)= したがって、とは相関が高く、事実上同じ情報を提供する必要があります。3つの回帰を実行します。 x 2x1x1x_1x2x2x_2 変数を除外します。2.変数を除外します。3.と両方を含む元のモデル。x 2 x 1 x 2x1x1x_1x2x2x_2x1x1x_1x2x2x_2 結果: 回帰1と2の場合、それぞれと予想される符号を提供します。また、標準エラーでHAC補正を行った後、とは両方のモデルで10%レベルで有意です。は正ですが、両方のモデルで有意ではありません。β 1 β 2 β 1 β 3β2β2\beta_2β1β1\beta_1β2β2\beta_2β1β1\beta_1β3β3\beta_3 ただし、3の場合、には予想される符号がありますが、の符号は正で、絶対値では 2倍の大きさです。また、とはも重要ではありません。さらに、の等級は、回帰1および2と比較してほぼ半分に減少します。β 2 β 1 β …

1
予測変数が欠落している重回帰
(y、x1、x2、⋯ 、xん)(y、バツ1、バツ2、⋯、バツん)(y,x_{1},x_{2},\cdots, x_{n})との形式のデータセットが与えられたとします(y、x1、x2、⋯ 、xn − 1)(y、バツ1、バツ2、⋯、バツん−1)(y,x_{1},x_{2},\cdots, x_{n-1})。xの値に基づいてyyyを予測するタスクが与えられます。:我々は2つの回帰どこ見積もり yとバツバツxyy= f1(x1、⋯ 、xn − 1、xん)= f2(x1、⋯ 、xn − 1)(1)(2)(1)y=f1(バツ1、⋯、バツん−1、バツん)(2)y=f2(バツ1、⋯、バツん−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} 我々はまた、の値を予測する回帰推定の値に基づいて、(X 1、⋯ 、X N - 1):であり、 X N =をfを3(X 1、⋯ 、X N - 1)バツんバツんx_{n}(x1、⋯ 、xn − 1)(バツ1、⋯、バツん−1)(x_{1},\cdots, x_{n-1})バツん= f3(x1、⋯ 、xn − 1)(3)(3)バツん=f3(バツ1、⋯、バツん−1) …

2
多重共線性が高い場合、LASSO係数は0に縮小されますか?
与えられた、LASSO係数と理由の理論的な行動は何ですか?x2=2x1x2=2x1x_2 = 2 x_1 のでしょうが1やにシュリンクまたはその両方?x1x1x_1x2x2x_2000 require(glmnet) x1 = runif(100, 1, 2) x2 = 2*x1 x_train = cbind(x1, x2) y = 100*x1 + 100 + runif(1) ridge.mod = cv.glmnet(x_train, y, alpha = 1) coef(ridge.mod) #3 x 1 sparse Matrix of class "dgCMatrix" # 1 #(Intercept) 1.057426e+02 #x1 9.680073e+01 #x2 3.122502e-15

4
ロジスティック回帰でカテゴリ変数の共線性を回避するにはどうすればよいですか?
次の問題があります。それぞれが名目上のスケールを持ついくつかの変数に対して多重ロジスティック回帰を実行しています。私の回帰では多重共線性を避けたいです。変数が連続的である場合、分散インフレ係数(VIF)を計算して、VIFが高い変数を探すことができます。変数が通常スケーリングされている場合、いくつかの変数のペアについてスピアマンの順位相関係数を計算し、その計算値を特定のしきい値と比較できます。しかし、変数が名目上スケーリングされている場合はどうすればよいですか?1つのアイデアは、独立性のペアワイズカイ2乗検定を実行することですが、異なる変数がすべて同じco-domainを持つわけではありません。したがって、これは別の問題です。この問題を解決する可能性はありますか?

2
二分予測変数の多重共線性の評価
私は、タスクの動作(応答時間など)を観察し、いくつかの実験的に操作された変数といくつかの観察された変数(参加者のセックス、参加者のIQ、フォローアップの応答)の関数としてこの動作をモデル化するプロジェクトに取り組んでいます。アップアンケート)。実験変数は独立になるように特別に操作されているため、実験変数間の多重共線性については心配していませんが、観測された変数については心配しています。ただし、評価された変数間の独立性を評価する方法がわからない。これは、評価者の設定方法によって多少異なる結果が得られるように見えるため、また、1つまたは複数のコンテキストでの相関にあまり詳しくないためです。両方の変数は二分です。 たとえば、セックスがIQから独立しているかどうかを判断する2つの異なるアプローチを次に示します。私は帰無仮説有意性検定のファンではないので、両方のアプローチで2つのモデルを構築します。1つは関係あり、もう1つはなしで、次に計算してAIC補正された対数尤度比を計算します。 m1 = lm(IQ ~ 1) m2 = lm(IQ ~ sex) LLR1 = AIC(m1)-AIC(m2) m3 = glm(sex~1,family='binomial') m4 = glm(sex~IQ,family='binomial') LLR2 = AIC(m3)-AIC(m4) ただし、これらのアプローチでは多少異なる答えが得られます。LLR1は約7で、関係を支持する強い証拠を示唆しています。一方、LLR2は約0.3で、関係を支持する非常に弱い証拠を示唆しています。 さらに、性別と別の二分観測変数 "yn"との間の独立性を評価しようとすると、結果のLLRは同様に、モデルをynから性別を予測するか、ynを性別から予測するように設定したかによって異なります。 これらの違いが生じている理由と最も合理的に進む方法についての提案はありますか?

2
ln(x)とln(x)^ 2の間の多重共線性
負の二項モデルを実行していて、予測変数の1つがカウント変数です。この変数は大きく歪んでいたため、ログ変換することにしました。 ただし、この変数の影響は非線形であると仮定されています。ただし、モデルに2乗項を含めるとすぐに、これらの2つの変数のVIFが20を超えているのに対し、他のすべての予測子は1と5の間のVIFで安定したままです。 私の現在の理解では、関係は線形であってはならず、したがって、マルチコリネリーは発生しません。 誰かが多重共線性の原因を説明し、この問題の可能な解決策を提供できますか?

2
なぜ単純に使用しないのですか
結局、VIFは次のように計算されます。 1/(1−R2j)1/(1−Rj2)1/(1-R_j^2)。のVIF555 に対応 R2JRJ2R_J^2 の 0.80.80.8。私にとって、によって提供された情報R2jRj2R_j^2VIFの数式を適用すると、さらに不明瞭になります。なぜ私はただ使用できないのですかR2jRj2R_j^2 多重共線性を検出するには?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.