タグ付けされた質問 「multicollinearity」

予測変数間に強い線形関係があり、それらの相関行列が(ほぼ)特異になるような状況。この「悪条件」により、各予測子が果たしている固有の役割を判別することが困難になります。推定の問題が発生し、標準誤差が増加します。二変量が非常に高い相関予測子は、多重共線性の一例です。

9
多重共線性が線形回帰の問題である理由を直感的に説明できますか?
wikiでは、多重共線性が線形回帰の問題である場合に発生する問題について説明しています。基本的な問題は、多重共線性により不安定なパラメーター推定が発生し、従属変数に対する独立変数の影響を評価することが非常に困難になることです。 私は問題の背後にある技術的な理由を理解しています(を逆変換できない、条件が悪いなど)。X ′ Xバツ′バツX′XX' Xバツ′バツX′XX' X 線形回帰のコンテキストで多重共線性が問題となる理由について、幾何学的またはおそらく他の簡単に理解できる形式の説明はありますか?

9
有意なF統計量(p <.001)であるが有意ではないリグレッサーt検定を取得できるのはなぜですか?
多重線形回帰では、非常に有意なF統計量(p &lt;.001)があり、すべてのリグレッサーのt検定で非常に高いp値を持つことができるのはなぜですか? 私のモデルでは、10個の回帰変数があります。1つのp値は0.1で、残りは0.9を超えています この問題に対処するには、次の質問を参照してください。

1
どの相関関係が行列を特異にし、特異点またはほぼ特異点の意味は何ですか?
私はさまざまな行列(主にロジスティック回帰)でいくつかの計算を行っていますが、一般的に「行列は特異です」というエラーが表示されます。ここでの私の質問は、「高度な」相関行列とは何だと思いますか?この単語を表す相関のしきい値はありますか?変数が別の変数と相関している0.97のように、これは行列を特異にするのに十分な「高」ですか? 質問が非常に基本的なものである場合、おthisび申し上げますが、この問題について言及している参考資料を見つけることができませんでした(参考資料へのヒントは大きなプラスになります!)。

3
重回帰モデルに相関する予測変数を持つことの効果は何ですか?
線形モデルクラスで、2つの予測変数が相関していて、両方がモデルに含まれている場合、1つは重要ではないことを学びました。たとえば、家のサイズと寝室の数が相関しているとします。これら2つの予測変数を使用して家のコストを予測する場合、どちらも同じ情報を大量に提供しているため、どちらか一方を削除できます。直感的には、これは理にかなっていますが、さらに技術的な質問があります。 モデルに予測子を1つだけ含めるか、両方の予測子を含める場合、この効果は回帰係数のp値にどのように現れますか? モデルに両方の予測変数を含めるか、1つの予測変数のみを含めると、回帰係数の分散にどのような影響がありますか? モデルがそれほど重要でないと判断する予測変数を知るにはどうすればよいですか? 予測子を1つだけ含めるか、両方の予測子を含めると、予測コストの値/分散がどのように変化しますか?

6
最新の統計/機械学習で多重共線性がチェックされないのはなぜですか
従来の統計では、モデルの構築中に、分散インフレーション係数(VIF)の推定などの方法を使用して多重共線性をチェックしますが、機械学習では、代わりに特徴選択に正則化を使用し、特徴が相関しているかどうかをチェックしないようですまったく。なぜそうするのですか?

2
ランダムフォレストの高度に相関した変数は、精度と特徴選択をゆがめませんか
私の理解では、高度に相関する変数は、ランダムフォレストモデルで多重共線性の問題を引き起こしません(間違っている場合は修正してください)。ただし、他の方法で、類似の情報を含む変数が多すぎる場合、他のモデルよりもこのセットのモデルの重みが大きくなりすぎますか? たとえば、同じ予測力を持つ2つの情報セット(A、B)があります。変数、、...すべて情報Aを含み、Yのみが情報Bを含みます。ランダムサンプリング変数では、ほとんどのツリーが情報Aで成長し、結果として情報Bが完全にキャプチャされませんか?バツ1バツ1X_1バツ2バツ2X_2バツ1000バツ1000X_{1000}

3
どの分散インフレ率を使用する必要があります:または?
vifRパッケージの関数を使用して、分散インフレ率を解釈しようとしていますcar。この関数は、一般化されたと両方を出力し。ヘルプファイルによると、この後者の値VIFVIF\text{VIF}GVIF1 /(2 ⋅ DF )GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} 信頼楕円体の次元を調整するために、関数はGVIF ^ [1 /(2 * df)]も出力します。ここで、dfは項に関連付けられた自由度です。 ヘルプファイルでこの説明の意味がわからないため、またはを使用すべきかどうかわかりません。私のモデルのためにこれらの2つの値が非常に異なっている(最大〜ある、最大値は〜ある)。GVIFGVIF\text{GVIF}GVIF1 /(2 ⋅ DF )GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}GVIFGVIF\text{GVIF}606060GVIF1 /(2 ⋅ DF )GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}333 誰かが私にどれを使用すべきか、そして信頼楕円体の次元を調整することの意味を教えてください。

3
変数選択を実行するときに多重共線性に対処する方法は?
9つの連続した独立変数を持つデータセットがあります。私はこれらの変数の中から選択して、モデルを単一のパーセンテージ(従属)変数に適合させようとしていますScore。残念ながら、いくつかの変数の間には深刻な共線性があることがわかっています。 私はstepAIC()変数選択のためにR の関数を使用しようとしましたが、奇妙なことに、その方法は変数が方程式にリストされている順序に敏感なようです... Rコードは次のとおりです(パーセンテージデータであるため、スコアにはロジット変換を使用します)。 library(MASS) library(car) data.tst = read.table("data.txt",header=T) data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 + Var8 + Var9, data = data.tst) step = stepAIC(data.lm, direction="both") summary(step) 何らかの理由で、方程式の先頭にリストされている変数がstepAIC()関数によって選択されることになり、結果は、たとえばVar9最初に(チルダに続いて)リストすることで操作できることがわかりました。 ここでモデルを適合させるより効果的な(そして論争の少ない)方法は何ですか?私は実際に線形回帰を使用することについては行き詰まっているわけではありません。私が望むのは、9つの変数のどれが変数の変動を本当に引き起こしているかを理解できることScoreです。これは、これらの9つの変数の共線性の強力な可能性を考慮に入れた方法であることが望ましい。

3
線形回帰モデルと非線形回帰モデルの違いを見分ける方法は?
私は、非線形回帰SAS Non Linearに関する次のリンクを読んでいました。最初のセクション「非線形回帰と線形回帰」を読んで理解したことは、以下の式は実際には線形回帰であるということでした。それは正しいですか?もしそうなら、なぜですか? y= b1バツ3+ b2バツ2+ b3x + cy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + b_3x + c 非線形回帰では多重共線性は問題ではないことも理解できますか?私は、多重共線性が線形回帰の問題になる可能性があることを知っていますので、確かに上記のモデルが実際に線形回帰であれば、多重共線性があるでしょうか?

2
相互作用項が含まれる場合にのみ問題となる共線性診断
米国の郡で回帰分析を実行し、「独立」変数の共線性をチェックしています。Belsley、Kuh、およびWelschの回帰診断では、Condition IndexおよびVariance Decomposition Proportionsを調べることを推奨しています。 library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition Index Variance Decomposition Proportions (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09 1 1.000 0.000 0.000 0.000 0.000 0.001 0.002 0.003 0.002 0.002 0.001 0.000 2 3.130 0.000 0.000 0.000 0.000 0.002 0.053 0.011 …

5
混合線形モデルで多重共線性をテストして回避する方法は?
現在、いくつかの混合効果線形モデルを実行しています。 Rでパッケージ「lme4」を使用しています。 私のモデルの形式は次のとおりです。 model &lt;- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) モデルを実行する前に、予測子間の可能な多重共線性をチェックしました。 私はこれをしました: 予測子のデータフレームを作成します dummy_df &lt;- data.frame(predictor1, predictor2) 「cor」関数を使用して、予測子間のピアソン相関を計算します。 correl_dummy_df &lt;- round(cor(dummy_df, use = "pair"), 2) 「correl_dummy_df」が0.80より大きい場合、predictor1とpredictor2の相関が高すぎるため、モデルに含まれていないと判断しました。 読書を行うと、多重共線性をチェックするより客観的な方法が現れます。 誰にもこれに関するアドバイスはありますか? 「Variance Inflation Factor(VIF)」は、1つの有効な方法のようです。 VEDは、AEDパッケージ(非クラン)の関数「corvif」を使用して計算できます。パッケージはhttp://www.highstat.com/book2.htmにあります。このパッケージは、次の書籍をサポートしています。 Zuur、AF、Ieno、EN、Walker、N.、Saveliev、AA&Smith、GM2009。混合効果モデルとエコロジーの拡張、R、第1版。スプリンガー、ニューヨーク。 一般的な経験則のように見えますが、VIFが5より大きい場合、予測子間の多重共線性は高くなります。 VIFの使用は、単純なピアソン相関よりも堅牢ですか? 更新 興味深いブログを見つけました: http://hlplab.wordpress.com/2011/02/24/diagnosing-collinearity-in-lme4/ ブロガーは、lme4パッケージのモデルのVIFを計算するための便利なコードを提供します。 コードをテストしましたが、うまく機能します。その後の分析で、モデルの多重共線性は問題ではないことがわかりました(すべてのVIF値&lt;3)。これは、以前にいくつかの予測子間の高いピアソン相関関係を発見したことを考えると、興味深いものでした。

2
PCAは多重共線性の下で不安定ですか?
回帰状況では、推定された係数の不安定性のため、高度に相関する変数のセットがある場合、これは通常「悪い」ことを知っています(行列式がゼロに近づくにつれて、分散は無限に向かっていきます)。 私の質問は、この「悪」がPCAの状況で持続するかどうかです。共分散行列が特異になると、特定のPCの係数/負荷/重み/固有ベクトルは不安定/任意/非一意になりますか?私は、最初の主成分のみが保持され、他のすべてが「ノイズ」または「その他」または「重要でない」として却下される場合に特に興味があります。 ゼロまたはゼロに近い分散を持ついくつかの主成分だけが残っているため、それはないと思います。 これを見やすいのは、2変数の単純な極端な場合ではありません-それらが完全に相関していると仮定します。次に、最初のPCは正確な線形関係になり、2番目のPCは最初のPCに対して垂直になり、すべての観測値でPCの値はすべてゼロになります(分散0)。より一般的な場合は疑問に思う。


1
多重共線性の特定の尺度を好む理由はありますか?
多くの入力変数を使用する場合、しばしば多重共線性が懸念されます。多重共線性の検出、考察、および/または通信に使用される多重共線性の尺度は多数あります。一般的な推奨事項は次のとおりです。 特定の変数 の複数のR2jRj2R^2_j 特定の変数 の許容誤差1 − R2j1−Rj21-R^2_j 特定の変数 の分散インフレーション係数、VIF = 1寛容VIF=1寛容\text{VIF}=\frac{1}{\text{tolerance}} 設計マトリックス全体の条件番号: max(固有値(X'X))min(固有値(X'X))−−−−−−−−−−−−−−−−−−√max(固有値(X'X))min(固有値(X'X))\sqrt{\frac{\text{max(eigenvalue(X'X))}}{\text{min(eigenvalue(X'X))}}} (ウィキペディアの記事で議論されている他のいくつかのオプションがあり、RのコンテキストでSOがあります。) 最初の3つがお互いの完全な機能であるという事実は、それらの間の唯一の可能な純利益が心理的であることを示唆しています。一方、最初の3つの方法では変数を個別に調べることができます。これは利点かもしれませんが、条件番号の方法が最適であると聞いています。 これは本当ですか?何に最適? 条件数はの完全な関数ですか?(そうなると思います。) R2jRj2R^2_j そのうちの1つが説明が最も簡単だと人々は思いますか?(これらの数値をクラス外で説明しようとしたことは一度もありません。多重共線性のゆるくて定性的な説明をします。)

1
重回帰の予測変数間の高い相関関係に対処する方法
次のような記事で参照を見つけました。 Tabachnick&Fidell(1996)によれば、0.70を超える二変量相関を持つ独立変数は重回帰分析に含まれるべきではありません。 問題:重回帰設計で使用した3つ以上の変数は.80以上、VIFは約.2-.3、許容値〜4〜5です。それらのいずれも除外できません(重要な予測変数と結果)。.80で相関した2つの予測子の結果を回帰すると、それらは両方とも有意なままであり、それぞれが重要な分散を予測し、これらの同じ2つの変数は、含まれる10個の変数の中で最大の部分と半部分の相関係数を持ちます(5つのコントロール)。 質問:相関が高いにもかかわらず、私のモデルは有効ですか?参考文献は大歓迎です! 答えてくれてありがとう! ガイドラインとしてTabachnickとFidellを使用しませんでした。予測子間の高い共線性を扱う記事でこの参照を見つけました。 したがって、基本的に、モデル内の予測子の数に対してケースが少なすぎます(多くのカテゴリカル、ダミーのコード化制御変数-年齢、在職期間、性別など)-72ケースの13変数。条件インデックスは、すべてのコントロールが含まれる場合は〜29、コントロールが含まれない場合は〜23(5変数)です。 理論的には独自の意味を持つため、変数を削除したり、要因分析を使用してそれらを結合することはできません。より多くのデータを取得するには遅すぎます。SPSSで分析を行っているので、おそらく、リッジ回帰の構文を見つけるのが最善でしょう(ただし、これを以前に行ったことはなく、結果の解釈は私にとっては新しいものです)。 問題があれば、段階的回帰を行ったときに、同じ2つの相関の高い変数が結果の単一の重要な予測因子のままでした。 そして、これらの各変数の高い部分相関が、モデルに保持されている理由の説明として重要であるかどうかはまだわかりません(リッジ回帰が実行できない場合)。 「回帰診断:影響力のあるデータと共線性の原因を特定する/ David A. Belsley、Edwin Kuh、Roy E. Welsch、1980」は多重共線性を理解するのに役立ちますか?または、他の参照が役立つでしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.