最新の統計/機械学習で多重共線性がチェックされないのはなぜですか


44

従来の統計では、モデルの構築中に、分散インフレーション係数(VIF)の推定などの方法を使用して多重共線性をチェックしますが、機械学習では、代わりに特徴選択に正則化を使用し、特徴が相関しているかどうかをチェックしないようですまったく。なぜそうするのですか?

回答:


51

極値では、係数がデータ内で一意に識別されるかどうかに直接関係するため、回帰分析では多重共線性を考慮することが重要です。それほど深刻ではない場合でも、係数推定値を混乱させる可能性があります。推定に使用されるデータのわずかな変化により、推定係数が大きく変動する可能性があります。これらは推論の観点から問題となる可能性があります。2つの変数が高度に相関している場合、一方の増加は別の変数の減少によって相殺される可能性があるため、組み合わせた効果は互いに打ち消し合います。3つ以上の変数を使用すると、効果はさらに微妙になりますが、予測が安定している場合は、機械学習アプリケーションで十分な場合がよくあります。

なぜ回帰コンテキストで正則化するのかを考えてみましょう。モデルの柔軟性を抑えすぎないようにする必要があります。正しい量の正則化を適用すると、分散が大きく減少するようにバイアスがわずかに増加します。これの古典的な例は、回帰に多項式項と相互作用効果を追加することです。縮退の場合、予測式はデータポイントを補間しますが、おそらく見えないデータポイントの値を予測しようとするとひどいものになります。これらの係数を縮小すると、これらの係数の一部が最小化または完全に削除され、一般化が改善される可能性があります。

ただし、ランダムフォレストには、各分割でサンプリングされた変数の数を通じて正則化パラメーターがあることがわかります:大きいほど良い分割が得mtryられます(より多くの機能を選択できます;それらのいくつかは他のものよりも優れています)各ツリーを他のツリーとより高い相関関係にし、そもそも複数のツリーを推定することによる多様化の影響をある程度緩和します。このジレンマは、通常、相互検証を使用して達成される適切なバランスを見つけることを強制します。重要なのは、回帰分析とは対照的に、ランダムフォレストモデルの一部が高度に共線的な変数によって損なわれないことです。2つの変数が同じ子ノードの純度を提供する場合でも、結果の品質を低下させることなく1つを選択できます。

同様に、SVMのようなものの場合、カーネルトリックによりこれらの機能ベクトルの内積のみを操作できるため、機能よりも多くの予測変数を含めることができます。パラメータ正則ながら観測が回帰で問題になるだろうより多くの機能を持つが、カーネルトリック手段我々は、各見本のための係数を推定推定するので、明らかに良いことだ-ソリューションの柔軟性を低減しパラメータを以下のためのCNN制限のない方法での観測は、常にテストデータの完全なモデルを生成します。そして、完全に楽観的なモデルに対するチェックとしてモデルの柔軟性が制約されているリッジ/ LASSO /エラスティックネット回帰シナリオに戻ります。SVM問題のKKT条件を確認すると、SVMソリューションが一意であることがわかります。そのため、回帰の場合に発生する識別問題を心配する必要はありません。

最後に、多重共線性の実際の影響を検討します。モデルの予測力は(少なくとも、トレーニングデータでは)変更されませんが、係数の推定値に影響します。ほとんどのMLアプリケーションでは、係数自体は気にしません、モデルの予測が失われるだけなので、その意味で、VIFをチェックしても実際に結果として生じる質問には答えません。(しかし、データのわずかな変更が係数の大きな変動を引き起こす場合(多重共線性の典型的な症状)、予測も変更する可能性があります。その場合、私たちは気にしますが、この[すべて!]いずれにしても、モデリングプロセスの一部である相互検証を実行します。)回帰はより簡単に解釈されますが、一部のタスクでは解釈が最も重要な目標ではない場合があります。


1
傾向スコアリングや回帰調整などの手法を使用した因果回帰モデリングの場合、共線形性は予測でも問題になる可能性があります。グループ、または2つのグループを組み合わせますが、インジケータ変数を使用して、実験グループに含まれる効果を測定し、他の要因を制御します。
エリー

1
共線性が係数にエラーを作成する場合、実験グループへの拡張回帰は機能しません。同様に、両方のサブサンプルで単一の回帰を行う場合、治療を受けたという指標変数の係数推定値は無効になる可能性があります。現代の機械学習技術は通常、これらのタイプの因果関係問題の分析には使用されないため、それを説明するためのツールの必要性に立ち向かう必要はありません。
エリー

@ely、最初の例では、目標は反事実の結果の予測であり、共線形性は予測の問題ではないため、共線形性(処理ではなく共変量の間)は問題を引き起こしません。また、現代のMLメソッドは、因果推論で頻繁に使用されます。一般化されたブーストモデリングとランダムフォレストは、傾向スコアを推定するために広く使用されており、TMLEはMLメソッドを使用して反事実の結果を補完します。因果的方法の強さは、共線形性は通常それらの問題ではないということです。
ノア

@Noah通常はあるの解釈だけで生の予測精度が問題(および他の効果の解釈はあまりにも推定)ことを暴露係数、及びません。私のコメントはこれを明らかにしなかったが、それが問題である理由だ。全体的な予測が良好であるが、露出に対して推定された係数に真に関連していることに駆動されていない場合、通常は因果推論の望ましくないモデルです。
エリー

21

その理由は、「従来の統計」の目標が多くの機械学習技術と異なるためです。

「従来の統計」とは、回帰とその変種を意味すると仮定します。回帰では、独立変数が従属変数に与える影響を理解しようとしています。強い多重共線性がある場合、これは単に不可能です。これを修正するアルゴリズムはありません。勤勉性がクラスの出席と成績と相関している場合、成績が本当に上がるのは何であるか(出席または勤勉性)を知ることはできません。

ただし、予測精度に焦点を当てた機械学習手法では、変数セットを使用して別のセットを予測する方法のみが重要です。これらの変数が互いに及ぼす影響については気にしません。

基本的に、機械学習手法で多重共線性をチェックしないという事実は、アルゴリズムの結果ではなく、目標の結果です。これは、変数間の強い共線性が回帰法の予測精度を損なわないことに気付くとわかります。


11

ここでは、共線性をチェックしないことが合理的であり、ベストプラクティスでさえあるという根本的な前提があるようです。これには欠陥があるようです。例えば、多くの予測因子とセットで完璧な共線性をチェックするには、2つの変数は、実際に同じ事例えば誕生日やから取られた年齢(例えば、あるかどうかを明らかにしDormann氏ら(2013)、Ecography36、1、頁27-46を)。また、フォーラムの競合他社が匿名化された潜在的な予測因子を排除しようとする、完全に相関する予測因子の問題が発生することもあります(つまり、予測因子のラベルが隠されており、KaggleおよびKaggleのような競合の一般的な問題です)。

予測子を選択する機械学習にもアクティビティがあります-高度に相関した予測子を識別することで、作業者は別の基礎となる(隠れた)変数のプロキシである予測子を見つけ、最終的に潜在変数を表す最良の仕事をする1つの変数を見つけることができます別の方法として、組み合わせることができる変数を提案します(PCA経由など)。

したがって、機械学習法は通常(または少なくとも頻繁に)相関する予測子に直面して堅牢になるように設計されていますが、予測子の相関の程度を理解することは、堅牢で正確なモデルを作成する際に役立つステップであることが多いことをお勧めします、および最適化されたモデルを取得するための便利な補助です。


9

多重共線性の主な問題は、独立変数の係数(ベータ)を台無しにすることです。だから、変数間の関係を調べたり、因果関係を確立したりするとき、それは深刻な問題です。

ただし、現象の理解にあまり関心がなく、予測と予測のみに焦点を合わせている場合、多重共線性はそれほど問題ではありません。または、少なくともそれは人々がそれについて考えるものです。

ここでは、完全な多重共線性については話していません。これは技術的な問題または識別の問題です。技術的には、設計マトリックスが特異点につながり、解決策が定義されていないことを意味します。


4
完全な共線性を備えていても、予測は明確に定義されています。
whuber

@ whuber、OLSを使用する場合、statパッケージはマトリックスを反転できないため、エラーをスローする可能性があります。スマートなものは、独立した変数の1つをドロップし、続行できます。
アクサカル

2
一般化逆行列を使用する場合、この特異点は問題になりません。
アナリスト

1
私はあなたの論理に従っていません、Aksakal:機械学習技術は統計的技術とは異なり、前者は低ランク行列で問題がないということを示唆しようとしていますか?探検するのは面白いアイデアです。
whuber

1
@user、独立変数はほとんど常に相関しており、通常は大丈夫です。完全な多重共線性のみがランクの不足を引き起こします。多重共線性とは非常に強い相関関係を指し、一般的には望ましくありませんが、前に書いたように、多くの場合、それは良性の問題です。
アクサカル

7

これらの機械学習の正則化により、回帰係数が安定するため、少なくとも多重共線性の影響は緩和されます。しかし、さらに重要なことは、予測(機械学習者がよく使用する)を使用する場合、多重共線性の「問題」はそもそもそれほど大きな問題ではなかったということです。特定の係数を推定する必要があり、情報がない場合に問題になります。

また、「いつLASSOが相関予測子を選択するか」に対する私の答えあなたに役立つかもしれません。


1

機械学習では多重共線性をチェックする必要があると思います。その理由は次のとおりです。データセットに2つの高度に相関したフィーチャXとYがあるとします。これは、応答面の信頼性が低いことを意味します(データのわずかな変更が応答面の方向に大きな影響を与える可能性があります)。これは、データポイントのモデルの予測が遠く離れていることを意味しますXとYが落ちる傾向があるラインからの信頼性はありません。このようなポイントの予測にモデルを使用する場合、予測はおそらく非常に悪いでしょう。言い換えると、モデルとして2つの相関の高い特徴がある場合、実際にはほとんどのデータが一列に並ぶ平面を学習していることになります。そのため、信頼性の低いモデルや誤った予測を防ぐために、データから高度に相関する特徴を削除することが重要です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.