回答:
バイナリ変数を標準化しても意味がありません。値は任意です。それらは、それ自体では何の意味もありません。数値安定性の問題に関して、0や1などの値を選択する理由があるかもしれませんが、それだけです。
値が0、1のバイナリ変数は、(通常)(値-平均)/ SDにスケーリングできます。これはおそらくzスコアです。
その上で最も明白な制約は、たまたますべてゼロまたはすべて1を取得した場合、SDをプラグインすると、zスコアが不確定になるということです。値が0である場合、ゼロを割り当てる場合もあります-平均はまったくゼロです。しかし、変数が実際に定数である場合、多くの統計的なことはあまり意味がありません。ただし、より一般的には、SDが小さい場合、スコアが不安定になったり、十分に決定されなかったりするリスクが高くなります。
あなたの質問により良い答えを与えることに関する問題は、まさにあなたが検討している「機械学習アルゴリズム」です。いくつかの変数のデータを組み合わせたアルゴリズムのように聞こえるので、通常、同様のスケールでそれらを提供するのが理にかなっています。
(後)元のポスターがコメントを1つずつ追加するので、彼らの質問は変化しています。SDが正である限り、バイナリ変数に対して(値-平均)/ SDが理にかなっている(つまり無意味ではない)とまだ考えています。ただし、ロジスティック回帰は後にアプリケーションと名付けられました。このため、バイナリ変数を0、1として入力する以外に、理論的または実用的なゲイン(および実際には多少の損失)はありません。それ; そうでない場合は、できるソフトウェアを優先してそのソフトウェアを放棄します。タイトルの質問に関しては、できます、はい。違います
わずかに異なる方法で標準化するのに役立つ1つの素晴らしい例は、Gelman and Hillのセクション4.2(http://www.stat.columbia.edu/~gelman/arm/)にあります。これは主に、係数の解釈が重要な場合であり、おそらく多くの予測子がない場合です。
そこに、彼らは(等しい0の比率と1との)バイナリ変数を標準化することにより 代わりに通常のσ。次に、これらの標準化された係数は値±0.5を取り、係数はx=0とx=1の比較を直接反映します。代わりにσでスケーリングした場合、係数はxの可能な値間の差の半分に対応します。
ロジスティック回帰では、N〜(0,5)やCauchy〜(0,5)などの非情報的事前変数をすべてに与えたい場合、それらを連続変数と組み合わせるために標準化することができます。標準化は次のようにすることをお勧めします。
1 = 1の割合
0 = 1-1の割合。
編集:実際、私はまったく正しくありませんでした。それは標準化ではありませんが、0を中心とし、下位条件と上位条件で1異なるシフトです。 -0.3と0.7の値をとるように、中央にある「会社A」変数を定義できます。