多くの場合、変数はモデルを作成する前に調整(標準化など)されます。これはいつ良いアイデアで、いつ悪いものですか?


56

どのような状況で、モデルのフィッティングの前に変数をスケーリングまたは標準化したい、またはしたくないですか?また、変数のスケーリングの利点/欠点は何ですか?


ここで非常に似た質問:stats.stackexchange.com/q/7112/3748探しているものはありますか?
マイケルビショップ

はい-線形モデルだけでなく、一般的なモデルについて知りたい
アンドリュー

1
多くの可能なモデルと、モデルの可能な使用法があります。質問をより具体的にすることができ、より良い他の質問との重複を減らすことができます。
マイケルビショップ

上記のリンクに加えて、この質問:データをセンタリングするとき、データを標準化するときが重要です。
GUNG -モニカ元に戻し

回答:


37

標準化とは、モデルのさまざまな変数の重みに関することです。数値の安定性のために「のみ」標準化を行う場合、非常に類似した数値特性をもたらす変換がありますが、解釈にははるかに適切な物理的意味があります。通常、標準化の一部であるセンタリングについても同様です。

おそらく標準化したい状況:

  • 変数は異なる物理量です
  • 数値の大きさは非常に異なっています
  • また、(数値)変動が大きい変数をより重要と見なす必要があるという「外部」知識はありません。

標準化したくない状況:

  • 変数が同じ物理量であり、(ほぼ)同じ大きさの場合、例えば
    • 異なる化学種の相対濃度
    • 異なる波長での吸光度
    • 異なる波長での発光強度(それ以外は同じ測定条件)
  • サンプル間で変化しない変数(ベースラインチャネル)を絶対に標準化する必要はありません-測定ノイズを吹き飛ばすだけです(代わりにモデルからそれらを除外することができます)
  • そのような物理的に関連する変数がある場合、測定ノイズはすべての変数でほぼ同じかもしれませんが、信号強度はさらに大きく異なります。つまり、値が低い変数は相対ノイズが高くなります。標準化するとノイズが吹き飛ばされます。言い換えると、相対ノイズと絶対ノイズのどちらを標準化するかを決定する必要がある場合があります。
  • たとえば、送信強度の代わりに、送信強度の使用率(透過率T)を測定値に関連付けるために使用できる物理的に意味のある値があります。

「間に」何かをして、変数を変換するか単位を選択して、新しい変数が物理的な意味を持ちながら数値の変動がそれほど変わらないようにすることができます。

  • マウスを使用する場合は、基本単位kgおよびm(変動の予想範囲0.005 kgおよび0.05 m-桁違いに異なる)の代わりに、体重gおよび長さ(cmの予想変動範囲約5)を使用します。
  • 上記の透過率Tの場合、吸光度使用を検討できますA=log10T

センタリングでも同様:

  • (物理的/化学的/生物学的/ ...)意味のあるベースライン値が利用できる場合があります(例、コントロール、ブラインドなど)
  • 平均は実際に意味がありますか?(平均的な人間には卵巣が1つ、and丸が1つあります)

+1とすぎるため標準化していないときに、いつの役に立つリストを受け入れ、感謝
アンドリュー

6
「平均的な人間には卵巣が1つ、test丸が1つ」の+1(および残りの回答にも;-)。
GUNG -モニカ元に戻し

1
@cbeleitesは、回答で使用したコンテキストでベースラインチャネルを説明するリソースへのリンクを提供できる可能性はありますか?この用語を聞いたことがなく、検索結果が表示されていますが、ここでの用語の使用を理解するのに役立ちません。ありがとう!
mahonya

1
@sarikan:図を見てください。この記事の1:americanlaboratory.com/913-Technical-Articles / ...生物学的および物理化学的理由により、2000〜2700 cmは信号は予期されません。この領域は、ベースラインを推定するために使用できます(ラマンではない物理的影響から)。これらの変量は、ほぼゼロに加えてノイズになります。1
cbeleitesは、モニカをサポートします

9

標準化する前に私が常に自問することの1つは、「出力をどのように解釈しますか?」です。変換せずにデータを分析する方法がある場合、これは解釈の観点から純粋に望ましい場合があります。


7

一般的に、絶対に必要でない限り、スケーリングや標準化はお勧めしません。そのようなプロセスの利点または魅力は、説明変数の物理的次元と大きさが応答変数とはまったく異なる場合、標準偏差による除算によるスケーリングが数値の安定性の点で役立ち、複数の変数の効果を比較できることです。説明変数。最も一般的な標準化では、変数効果は、説明変数が1標準偏差だけ増加したときの応答変数の変化量です。また、変数の効果(説明変数が1単位増加した場合の応答変数の変化量)の意味は失われますが、説明変数の統計値は変更されません。しかしながら、モデルで相互作用を考慮すると、相互作用効果の標準誤差を計算する際に確率論的なスケーリング調整を伴う複雑さのために、統計的テストでもスケーリングは非常に問題になる可能性があります(Preacher、2003)。このため、特に相互作用が関係する場合、標準偏差によるスケーリング(または標準化/正規化)は一般的に推奨されません。

Preacher、KJ、Curran、PJ、およびBauer、DJ、2006。多重線形回帰、マルチレベルモデリング、および潜在曲線分析で相互作用効果を調べるための計算ツール。Journal of Educational and Behavioral Statistics、31(4)、437-448。


4
予測子の標準化は「特に相互作用が関係している場合はお勧めしません」というあなたの主張に疑問を投げかけます。GelmanとHillもRaudenbush&Brykも、テキストでこの懸念に言及していません。しかし、機会があれば、あなたが言及した参考文献を興味を持って見ていきます。
マイケルビショップ

スケーリング変数としてキャリブレーションユニバースstdを使用する場合、スケーリングは確率的ではありません。
アダム

インタラクション用語の場合にスケーリングが有害であるかどうかを誰かが確認できますか?上記の議論では解決されていないようです。
Talik3233
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.