映画Mのロジスティック分類子を作成するとします。私の特徴は、人の年齢、性別、職業、場所などです。したがって、トレーニングセットは次のようになります。
- 年齢性別職業場所好き(1)/嫌い(0)
- 23 MソフトウェアUS 1
- 24 Fドクター英国0
など…。今、私の質問は、自分の機能をどのように拡大縮小して表現するかです。私が考えた1つの方法:年齢グループとして年齢を分けるので、18-25、25-35、35-上記、性別をM、F、場所を米国、英国、その他。ここで、これらすべての値に対してバイナリフィーチャを作成します。したがって、年齢にはそれぞれ年齢グループなどに対応する3つのバイナリフィーチャが含まれます。したがって、米国の28歳の男性は010 10 100(010->年齢グループ25-35、10->男性、100->米国)として表されます。
ここで機能を表す最良の方法は何でしょうか?また、私はいくつかのe.gsで気づきました。sklearnのすべての機能は何らかの方法でスケーリング/正規化されています。たとえば、性別は、男性と女性の0.0045と-.0.0045の2つの値で表されます。私はこのようなスケーリング/整形を行う方法についての手がかりがありませんか?