変数と共線性の標準化

共線性は、さまざまな種類の回帰問題で特定の問題を引き起こす可能性があります。特に、パラメーター推定値の分散が大きくなり、不安定になる可能性があります。

これに対処するために、リッジ回帰、部分最小二乗回帰、主成分回帰、変数の削除、より多くのデータの取得など、さまざまな方法が提案されています。

物議を醸している1つの方法は、独立変数を標準化またはスケーリングすることであり、さまざまな専門家がそれが良い（例：ガルシア）または悪い（例：ベルズリー）アイデアであると述べています。Belsleyの問題は、（非技術的な用語では）IVの変更が問題を敷居の下に押しやっているだけのようです。しかし、他の専門家は同意しないようです。そして、作者は自分の立場を擁護することにかなり熱くなる傾向があります。

（共線性診断に関する）論文を作成したとき、ベルズリーの主張は説得力のあるものでしたが、それはずっと前のことです（1999年に学位を取得しました）。

専門家のガイダンス、または公平である現在のレビュー記事を探しています。

multicollinearity

— ピーター・フロム
ソース

私はあなたに最新のリファレンスはありません-私の主な権限はまだBelsley Kuh＆Welsch 1981です-しかし、特定の回帰ソフトウェアを修正した最近の経験から、予備的な標準化には確かにある程度の価値があると確信できました。アプリケーションでは、1つの変数は時間でした。このRフレームワークでは、1970年の初めから秒で表されています。そのため、すべての共変量より9桁大きくなる傾向がありました。時間を単純に標準化することで、尤度オプティマイザで発生する重大な浮動小数点問題が解決されました。

— whuber

概念的には（数値的にではなく）、アーサーゴールドバーガーは次の点で注目されていたと思います。この不均衡は、「サンプルサイズが小さい」というエキゾチックな多音節名の欠如に起因します。もしそうなら、我々は長期的に導入することにより、その障害を取り除くことができmicronumerosityを」

— CloseToC

@Peter Flom：Whuberのコメントと一貫して、私は（非常に）予測変数をゼロにするだけで標準化することは平均を大きく助けたことを漠然と覚えています。

— mlofton

どのような標準化が意味されているのか私にはそれほどはっきりしていませんでした。また、歴史を探している間に、2つの興味深い参考文献を見つけました。

この最近の記事には、はじめに歴史的な概要があります。

ガルシア、J。、サルメロン、R。、ガルシア、C。、およびロペスマルティン、MDM（2016）。リッジ回帰における変数の標準化と共線性診断。国際統計レビュー、84（2）、245-266

標準化またはセンタリングがまったく効果がないことを示す一種の主張がある別の興味深い記事を見つけました。

Echambadi、R.＆Hess、JD（2007）。平均中心化は、モデレートされた重回帰モデルの共線性の問題を軽減しません。マーケティングサイエンス、26（3）、438-445。

私にとって、この批判はすべて、センタリングのアイデアに関する要点を逃したようなものです。

EchambadiとHessが示す唯一のことは、モデルが同等であり、非中心モデルの係数に関して中心モデルの係数を表すことができ、逆も同様である（結果として、係数の類似の分散/誤差が生じる））。

エシャンバディとヘスの結果は少々些細なものであり、私はこれ（これらの関係と係数間の等価性）がだれでも正しくないと主張していないと思います。係数間のそれらの関係が真実ではないと誰も主張しなかった。そして、それは変数をセンタリングするポイントではありません。

$t$ $Y$

「線形依存性と二次依存性の係数の精度を時間で表す場合時間を使用すると、それらの分散が大きくなります。 $t$ $t^\prime$ 、-10から10範囲の。」

Y = a + b t + c t^{2}

$Y = a + bt + ct^2$

対

Y = a^{』} + b^{』} （ t - T ） + c^{』} （ t - T ）^{2}

$Y = a^\prime + b^\prime(t-T) + c^\prime(t-T)^2$

もちろん、これらの2つのモデルは同等であり、中央揃えする代わりに、次のような係数を計算することで、まったく同じ結果（したがって、推定係数の同じ誤差）を得ることができます。

\begin{matrix} a & = & a^{』} - b^{』} T + c^{』} T^{2} \\ b & = & b^{』} - 2 c^{』} T \\ c & = & c^{』} \end{matrix}

$\begin{array}{} a &=& a^\prime - b^\prime T + c^\prime T^2 \\ b &=& b^\prime - 2 c^\prime T \\ c &=& c^\prime \end{array}$

$R^2$

しかし、それは決して平均中心化のポイントではありません。平均中心のポイントは、係数とそれらの推定された分散/精度または信頼区間を伝達したい場合があることです。それらの場合、モデルの表現方法が重要です。

例：物理学者は、いくつかのパラメータXの実験関係を温度の2次関数として表現したいと考えています。

次のような係数の95％間隔を報告する方が良いでしょう。

                 2.5 %      97.5 %

(Intercept)      1602       1621
T-348               7.87       8.26
(T-348)^2           0.0029     0.0166

の代わりに

                  2.5 %     97.5 %

(Intercept)       -839       816
T                   -3.52      6.05
T^2                  0.0029    0.0166

後者の場合、係数は一見大きなエラーマージンによって表現されます（ただし、モデルのエラーについては何も伝えられません）。さらに、エラーの分布間の相関関係は明確になりません（最初のケースでは、エラーは係数は相関しません）。

EchambadiやHessのように、2つの式は同等であり、センタリングが重要ではないと主張する場合、（同様の引数を使用した結果として）モデル係数の式も主張する必要があります（自然な切片がなく、選択肢は、信頼区間や標準エラーの面で）任意でありませんでし意味。

この質問/回答では、95％の信頼区間が係数の推定値の誤差が相関しているときに、係数の確実性について（少なくとも直感的には）あまり知らないというこの考えを示す画像が示されています。

— Sextus Empiricus
ソース

ありがとう！私はガルシアを見たが、あなたが言及した他の記事を見なかった。

— Peter Flom