25

一連の機能を備えたデータセットがあります。それらのいくつかはバイナリアクティブまたは起動、 $(1=$ $0=$ 非アクティブまたは休止）であり、残りはなどの実際の値。 $4564.342$

私は私、機械学習アルゴリズムには、このデータを送りたいのすべての実数値の特徴-score。私はそれらを範囲と間で取得します。現在、バイナリ値もスコア化されているため、ゼロはなり、1はなり。 $z$ $3$ $-2$ $z$ $-0.222$ $0.5555$

このようなバイナリ変数の標準化は意味がありますか？

machine-learning normalization binary-data

— サイアミ
ソース

14

バイナリ変数を標準化しても意味がありません。値は任意です。それらは、それ自体では何の意味もありません。数値安定性の問題に関して、0や1などの値を選択する理由があるかもしれませんが、それだけです。

— gung-モニカの復職
ソース

0〜100の場合はどうでしょう。私が言ったように、それらは「顔を認識した」や「顔を認識しなかった」といったものを意味し、0-100は信頼レベルを意味します。それをZスコアにするのは理にかなっていますか？

— siamii

0-100の例は、序数の評価のように聞こえます。その状況で最善の対処方法については少し詳細があり、CVでかなり議論されています。詳細については、順序タグを検索してください。

— GUNG -復活モニカ

問題は、変数の一部のみが0〜100であるということです。その他は、例えば

— -400-+400

その問題は何ですか？これは数値安定性の問題ですか？

— GUNG -復活モニカ

おそらく、zスコアを付けないことをお勧めしますか？

— siamii

14

値が0、1のバイナリ変数は、（通常）（値-平均）/ SDにスケーリングできます。これはおそらくzスコアです。

その上で最も明白な制約は、たまたますべてゼロまたはすべて1を取得した場合、SDをプラグインすると、zスコアが不確定になるということです。値が0である場合、ゼロを割り当てる場合もあります-平均はまったくゼロです。しかし、変数が実際に定数である場合、多くの統計的なことはあまり意味がありません。ただし、より一般的には、SDが小さい場合、スコアが不安定になったり、十分に決定されなかったりするリスクが高くなります。

あなたの質問により良い答えを与えることに関する問題は、まさにあなたが検討している「機械学習アルゴリズム」です。いくつかの変数のデータを組み合わせたアルゴリズムのように聞こえるので、通常、同様のスケールでそれらを提供するのが理にかなっています。

（後）元のポスターがコメントを1つずつ追加するので、彼らの質問は変化しています。SDが正である限り、バイナリ変数に対して（値-平均）/ SDが理にかなっている（つまり無意味ではない）とまだ考えています。ただし、ロジスティック回帰は後にアプリケーションと名付けられました。このため、バイナリ変数を0、1として入力する以外に、理論的または実用的なゲイン（および実際には多少の損失）はありません。それ; そうでない場合は、できるソフトウェアを優先してそのソフトウェアを放棄します。タイトルの質問に関しては、できます、はい。違います

— ニックコックス
ソース

3

簡単な答えは、それは何も変わらないということであり、0、1をzスコアに変更することがこの状況で何かに役立つ理由はわかりません。自分を納得させるために、両方の方法で試してみて、重要な変更がないことを確認してください。

— ニックコックス

3

それどころか、ほとんどの人はここで0、1を使用すると思います。

— ニックコックス

1

ロジスティック回帰を実行しているとき、ソフトウェアはとにかくほぼ確実に標準化を実行します（より優れた数値特性を実現するため）。したがって、バイナリインジケータを意味のある方法で表現することをお勧めします。それを標準化することは、良いことでも役に立つことでもありません。

— whuber

1

バイナリ予測変数を「標準化」する必要がある機械学習方法は疑わしいです。

— フランクハレル

2

それはあなた自身の実装なので、他の誰もあなたに客観的な答えを与える根拠がありません！事前の標準化が意味をなすかどうかを判断するには、ソフトウェアがデータをどのように処理するかを調べる必要があります。

— whuber

3

わずかに異なる方法で標準化するのに役立つ1つの素晴らしい例は、Gelman and Hillのセクション4.2（http://www.stat.columbia.edu/~gelman/arm/）にあります。これは主に、係数の解釈が重要な場合であり、おそらく多くの予測子がない場合です。

そこに、彼らは（等しい0の比率と1との）バイナリ変数を標準化することにより代わりに通常の。次に、これらの標準化された係数は値を取り、係数はと比較を直接反映します。代わりにスケーリングした場合、係数は可能な値間の差の半分に対応します。

\frac{バツ - μ_{バツ}}{2 σ_{バツ}} 、

$\frac{x-\mu_x}{2\sigma_x},$

σ

$\sigma$

\pm 0.5

$\pm 0.5$

x = 0

$x=0$

x = 1

$x=1$

σ

$\sigma$

x

$x$

— ゴセットの学生
ソース

私が見るバイナリ変数はめったにそのようなものではないので、「0と1の等しい割合で」を説明してください。

— ニックコックス

私はその割合が実際に違いを生むとは思いません。彼らはそれを使って例をきれいにしています。

— ゴセットの学生

1

あなたは何を標準化したいのですか、バイナリ確率変数、または割合ですか？

$Y:S\rightarrow \mathbb{R}$ $Y\in \lbrace 0,1\rbrace$

$X\in[0,1]$ $x\in \mathbb{R}^+$

— QAChip
ソース

0

ロジスティック回帰では、N〜（0,5）やCauchy〜（0,5）などの非情報的事前変数をすべてに与えたい場合、それらを連続変数と組み合わせるために標準化することができます。標準化は次のようにすることをお勧めします。

1 = 1の割合

0 = 1-1の割合。

-----

編集：実際、私はまったく正しくありませんでした。それは標準化ではありませんが、0を中心とし、下位条件と上位条件で1異なるシフトです。 -0.3と0.7の値をとるように、中央にある「会社A」変数を定義できます。

— カルロスST
ソース

これを標準化として理解することはできません。

— マイケルR.チャーニック

バイナリ変数を標準化する必要がありますか？

-----