タグ付けされた質問 「multicollinearity」

予測変数間に強い線形関係があり、それらの相関行列が(ほぼ)特異になるような状況。この「悪条件」により、各予測子が果たしている固有の役割を判別することが困難になります。推定の問題が発生し、標準誤差が増加します。二変量が非常に高い相関予測子は、多重共線性の一例です。

2
回帰における定性的変数コーディングは「特異点」につながります
「品質」という独立変数があります。この変数には、応答の3つのモダリティ(低品質、中品質、高品質)があります。この独立変数を多重線形回帰に導入したいと思います。バイナリ独立変数(ダミー変数、0/ をコーディングできます1)がある場合、それを多重線形回帰モデルに導入するのは簡単です。 しかし、応答の3つのモダリティを使用して、この変数を次のようにコーディングしようとしました。 Bad quality Medium quality High quality 0 1 0 1 0 0 0 0 1 0 1 0 しかし、多重線形回帰を行おうとすると問題がありMedium qualityますNA:モダリティは私に与えます: Coefficients: (1 not defined because of singularities) この変数「品質」を3つのモダリティでどのようにコーディングできますか?因子(factorin R)として変数を作成する必要がありますが、この因子を多重線形回帰に導入できますか?

3
Pythonで共線変数を体系的に削除するにはどうすればよいですか?[閉まっている]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。 これまで、相関テーブルを調べ、特定のしきい値を超える変数を削除することにより、データ準備プロセスの一部として共線変数を削除しました。これを行うより受け入れられた方法はありますか?さらに、一度に2つの変数間の相関関係を調べるだけでは理想的ではないことを認識しています。VIFのような測定では、いくつかの変数間の潜在的な相関関係が考慮されます。多重共線性を示さない変数の組み合わせを体系的に選択するにはどうすればよいでしょうか? パンダのデータフレーム内にデータがあり、sklearnのモデルを使用しています。

1
ロジスティック回帰-多重共線性の懸念/落とし穴
ロジスティック回帰では、OLS回帰のように多重共線性について心配する必要がありますか? たとえば、多重共線性が存在するロジスティック回帰では、ベータ係数からの推論に注意する必要がありますか(OLS回帰の場合と同様)。 OLS回帰の場合、高い多重共線性の1つの「修正」はリッジ回帰です。ロジスティック回帰の場合、そのようなものはありますか?また、変数のドロップ、または変数の結合。 ロジスティック回帰における多重共線性の影響を低減するための合理的なアプローチは何ですか?それらは本質的にOLSと同じですか? (注:これは、設計された実験の目的ではありません)

3
共線性について話すことができるのはいつですか
線形モデルでは、説明変数間に関係が存在するかどうかを確認する必要があります。それらが過度に相関している場合、共線性があります(つまり、変数は互いに部分的に説明します)。現在、それぞれの説明変数間のペアワイズ相関関係を調べています。 質問1: 相関が高すぎると分類されるものは何ですか?たとえば、ピアソン相関が0.5すぎますか? 質問2: 相関係数に基づいて2つの変数間に共線性があるかどうか、または他の要因に依存しているかどうかを完全に判断できますか? 質問3: 2つの変数の散布図をグラフィカルにチェックすると、相関係数が示すものに何かが追加されますか?

1
1つの変数が他の変数の線形結合であるにもかかわらず、完全な多重共線性のためにこの回帰が失敗しないのはなぜですか?
今日、私は小さなデータセットで遊んでいて、完全な多重共線性のために失敗すると予想される簡単なOLS回帰を実行しました。しかし、そうではありませんでした。これは、多重共線性に関する私の理解が間違っていることを意味します。 私の質問は:どこが間違っているのですか? 私の変数の1つが他の変数の線形結合であることを示すことができると思います。これにより、フルランクを持たないリグレッサマトリックスが生成されるため、係数を特定しないでください。 私は小さな再現可能なデータセットを生成しました(以下のコード): exporter importer flow dist intraUS 1 Canada Canada 996.8677 6.367287 0 2 Florida Canada 995.8219 9.190562 0 3 Texas Canada 1001.6475 4.359063 0 4 Mexico Canada 1002.4371 7.476649 0 5 Canada Florida 1002.8789 5.389223 0 6 Florida Florida 1007.5589 6.779686 1 7 Texas Florida 996.8938 1.570600 …

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
VIF、条件インデックスおよび固有値
現在、データセットの多重共線性を評価しています。 問題を示唆するVIFのしきい値と条件インデックスはどのくらいですか? VIF: 私はVIFと聞いてい問題です。≥10≥10\geq 10 2つの問題の変数を除去した後、VIFがある各変数について。変数はさらに処理する必要がありますか、またはこのVIFは正常に見えますか?≤3.96≤3.96\leq 3.96 条件インデックス: 30以上の条件インデックス(CI)が問題であると聞きました。私の最高CIは16.66です。これは問題ですか? その他の問題: 他に考慮すべきことはありますか? 他に覚えておく必要があることはありますか?

4
非線形モデルを使用する場合、多重共線性について心配する必要がありますか?
ほとんどがカテゴリカルな特徴を持つバイナリ分類問題があるとします。学習には非線形モデル(XGBoostやランダムフォレストなど)を使用します。 それでも多重共線性を心配する必要がありますか?どうして? 上記の答えが正しい場合、これらのタイプの非線形モデルを使用していることを考慮して、どのように戦うべきですか?

2
のみを知っており、直接知らない場合の線形回帰
と仮定します。Xβ=YXβ=YX\beta =Y 正確にはわかりませんが、各予測子との相関関係のみがわかります。YYYXtYXtYX^\mathrm{t}Y 通常の最小二乗(OLS)解はであり、問​​題はありません。β=(XtX)−1XtYβ=(XtX)−1XtY\beta=(X^\mathrm{t} X)^{-1} X^\mathrm{t}Y しかし、がほぼ特異(多重共線性)であり、最適なリッジパラメーターを推定する必要があるとします。すべてのメソッドは正確な値を必要とするようです。XtXXtXX^\mathrm{t}XYYY がわかっている場合、代替方法はありますか?XtYXtYX^\mathrm{t}Y

2
チャンクテストとは何ですか?
多重共線性の存在下でのモデル選択に関する質問に答えて、フランク・ハレル は次のように提案しました。 すべての変数をモデルに入れますが、競合する変数の効果に対して調整された1つの変数の効果をテストしません...共変数が全体の多自由度関連テストの代わりに力を結合するため、競合する変数のチャンクテストは強力です変数を個別にテストするときのように、互いに競合します。 何であるチャンク・テストは?そのアプリケーションの例を教えていただけますrか?

6
個々の回帰が重要だが、VIFが低い場合の多重共線性
を予測するために使用している6つの変数()があります。データ分析を実行するとき、最初に多重線形回帰を試しました。このことから、2つの変数のみが重要でした。ただし、各変数を個々にと比較する線形回帰を実行した場合、1つを除くすべてが有意でした(が0.01未満から0.001未満のいずれか)。これは多重共線性によることが示唆されました。x1...x6x1...x6x_{1}...x_{6}yyyyyyppp これに関する私の最初の研究は、VIFを使用して多重共線性をチェックすることを示唆しています。Rから適切なパッケージをダウンロードすると、結果のVIFが3.35、3.59、2.64、2.24、および5.56になりました。オンラインのさまざまな情報源によると、VIFとの多重共線性について心配すべき点は4または5です。 これが私のデータにとって何を意味するのか困惑しています。多重共線性の問題はありますか?もしそうなら、どうすればいいですか?(これ以上データを収集できず、変数は明らかに関連していないモデルの一部です)この問題がない場合、データから何を取得する必要がありますか、特にこれらの変数が非常に重要であるという事実個々に、しかし結合されたときに全く重要ではありません。 編集:データセットに関していくつかの質問がありましたので、拡張したいと思います... この特定のケースでは、特定の社会的キュー(ジェスチャー、視線など)が他のキューを生成する可能性にどのように影響するかを理解しようとしています。モデルにすべての重要な属性を含めるようにしたいので、冗長と思われるものを削除するのは不快です。 現在、これに関する仮説はありません。むしろ、問題は研究されておらず、どの属性が重要であるかをよりよく理解することを目指しています。私の知る限り、これらの属性は互いに比較的独立している必要があります(視線とジェスチャが同じである、または別のサブセットであると言うことはできません)。他の研究者に何が見られているかを理解してもらいたいので、すべてのp値を報告できると便利です。 編集2:それはどこかに以下思い付いたので、私のnnn 24です。

1
多重共線性の存在下でリッジ回帰がうまく機能するのはなぜですか?
私はリッジ回帰について学んでいますが、リッジ回帰は多重共線性の存在下でうまく機能する傾向があることを知っています。なぜこれが本当なのだろうか?直感的な答えか数学的な答えのどちらかが満足のいくものになります(両方のタイプの答えがさらに満足できるでしょう)。 また、私はそのことを知っているβを常に得ることができますが、どれだけ正確な共線の存在下で、リッジ回帰の仕事(1つの独立変数は、他の線形関数である)ん?β^β^\hat{\beta}

3
kmeansを実行する前に、相関/共線の変数を削除する必要がありますか?
顧客のクラスターを識別するためにkmeansを実行しています。クラスターを識別する変数は約100個あります。これらの各変数は、カテゴリに対する顧客の支出の割合を表します。そのため、100個のカテゴリがある場合、これらの変数の合計が各顧客に対して100%になるように、これらの100個の変数があります。現在、これらの変数は互いに強く相関しています。kmeansを実行する前に、これらのいくつかをドロップして共線性を除去する必要がありますか? サンプルデータは次のとおりです。実際には、100個の変数と1,000万人の顧客がいます。 Customer CatA CatB CatC 1 10% 70% 20% 2 15% 60% 25%

3
変数を捨てずに、高い多重共線性を持つ線形回帰で不安定な
高い多重共線性を持つ線形回帰のベータ安定性? 線形回帰で、変数x1x1x_1とx2x2x_2多重共線性が高いとしましょう(相関は約0.9です)。 ββ\beta係数の安定性が心配なので、多重共線性を扱う必要があります。 教科書の解決策は、変数の1つを捨てることです。 しかし、単に変数を捨てることで有用な情報を失いたくありません。 助言がありますか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.