ダミー変数の正規化


8

私のデータは、いくつかの連続測定と、測定が行われた年を表すいくつかのダミー変数で構成されています。今、私はデータを使ってニューラルネットワークを学びたいです。したがって、ダミー変数を含むすべての変数をzScoreで正規化しています。ただし、ダミー変数を正規化するとその範囲が変更されるため、これが妥当な方法であるかどうか疑問に思います。これは、分布が異なる場合に比較可能性を低くするためです。一方、ダミー変数を正規化しないと、ネットワーク出力への影響が最適化されない可能性があるため、疑わしいかもしれません。

ダミー変数を処理し、それらを正規化(zScore)するか、そのままにしておくための最良のアプローチは何ですか?


4
A. Gelmanによるこの論文は興味深いかもしれません。興味深いstat.columbia.edu/~gelman/research/published/standardizing7.pdf
boscovich

回答:


7

何らかの類似性測定を行う場合は、正規化が必要です。

その性質上、ダミー変数はバイナリスイッチとして機能します。(0,1)または(-.5、.5)としてコード化しても、何らかの形、回帰、または分類である場合は、従属変数との関係に影響はありません。

規模に依存するため、クラスタリングを実行している場合は問題になります。


2

ダミー変数を正規化しても意味がありません。通常、正規化は、変数が異なるスケールで測定され、適切な比較ができない場合に使用されます。ただし、ダミー変数を使用すると、バイナリ情報のみがモデルに入れられ、それが正規化された場合、たとえば1年間の影響の情報は失われます。


それで、質問によると、損失関数をどのように扱うのですか?
Afshin Amiri
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.