どのような標準化が意味されているのか私にはそれほどはっきりしていませんでした。また、歴史を探している間に、2つの興味深い参考文献を見つけました。
この最近の記事には、はじめに歴史的な概要があります。
ガルシア、J。、サルメロン、R。、ガルシア、C。、およびロペスマルティン、MDM(2016)。リッジ回帰における変数の標準化と共線性診断。国際統計レビュー、84(2)、245-266
標準化またはセンタリングがまったく効果がないことを示す一種の主張がある別の興味深い記事を見つけました。
Echambadi、R.&Hess、JD(2007)。平均中心化は、モデレートされた重回帰モデルの共線性の問題を軽減しません。マーケティングサイエンス、26(3)、438-445。
私にとって、この批判はすべて、センタリングのアイデアに関する要点を逃したようなものです。
EchambadiとHessが示す唯一のことは、モデルが同等であり、非中心モデルの係数に関して中心モデルの係数を表すことができ、逆も同様である(結果として、係数の類似の分散/誤差が生じる) )。
エシャンバディとヘスの結果は少々些細なものであり、私はこれ(これらの関係と係数間の等価性)がだれでも正しくないと主張していないと思います。係数間のそれらの関係が真実ではないと誰も主張しなかった。そして、それは変数をセンタリングするポイントではありません。
tY
「線形依存性と二次依存性の係数の精度を時間で表す場合時間を使用すると、それらの分散が大きくなります。tt』、-10から10範囲の。」
Y= a + b t + c t2
対
Y= a』+ b』(t − T)+ c』(t − T)2
もちろん、これらの2つのモデルは同等であり、中央揃えする代わりに、次のような係数を計算することで、まったく同じ結果(したがって、推定係数の同じ誤差)を得ることができます。
abc===a』− b』T+ c』T2b』− 2 c』Tc』
R2
しかし、それは決して平均中心化のポイントではありません。平均中心のポイントは、係数とそれらの推定された分散/精度または信頼区間を伝達したい場合があることです。それらの場合、モデルの表現方法が重要です。
例:物理学者は、いくつかのパラメータXの実験関係を温度の2次関数として表現したいと考えています。
T X
298 1230
308 1308
318 1371
328 1470
338 1534
348 1601
358 1695
368 1780
378 1863
388 1940
398 2047
次のような係数の95%間隔を報告する方が良いでしょう。
2.5 % 97.5 %
(Intercept) 1602 1621
T-348 7.87 8.26
(T-348)^2 0.0029 0.0166
の代わりに
2.5 % 97.5 %
(Intercept) -839 816
T -3.52 6.05
T^2 0.0029 0.0166
後者の場合、係数は一見大きなエラーマージンによって表現されます(ただし、モデルのエラーについては何も伝えられません)。さらに、エラーの分布間の相関関係は明確になりません(最初のケースでは、エラーは係数は相関しません)。
EchambadiやHessのように、2つの式は同等であり、センタリングが重要ではないと主張する場合、(同様の引数を使用した結果として)モデル係数の式も主張する必要があります(自然な切片がなく、選択肢は、信頼区間や標準エラーの面で)任意でありませんでし意味。
この質問/回答では、95%の信頼区間が係数の推定値の誤差が相関しているときに、係数の確実性について(少なくとも直感的には)あまり知らないというこの考えを示す画像が示されています。
R
フレームワークでは、1970年の初めから秒で表されています。そのため、すべての共変量より9桁大きくなる傾向がありました。時間を単純に標準化することで、尤度オプティマイザで発生する重大な浮動小数点問題が解決されました。