20000サンプルのデータセットがあり、それぞれに12の異なる機能があります。各サンプルは、カテゴリ0または1のいずれかにあります。ニューラルネットワークと決定フォレストをトレーニングしてサンプルを分類し、結果と両方の手法を比較できるようにします。
最初に遭遇したのは、データの適切な正規化です。一つの特徴は、範囲内にある、で別の[ 30 、40 ]、ほとんどが、私は異なるソースに読み取るように、入力データの適切な正規化を時々値8と7を取ることが一つの特徴がありますニューラルネットワークにとって重要です。私が知ったように、データを正規化する多くの可能な方法があります、例えば:
- ミニマックス正規化:入力範囲は直線区間に変換され(または[ - 1 、1 ]、その問題していますか?)
- Zスコアの正規化:データは平均がゼロで分散が単位に変換されます:
どの正規化を選択する必要がありますか?意思決定フォレストにも正規化が必要ですか?Zスコアの正規化では、テストデータのさまざまな機能が同じ範囲内にありません。これは問題でしょうか?すべての機能を同じアルゴリズムで正規化して、すべての機能にMin-Maxを使用するか、すべての機能にZスコアを使用するかを決定する必要がありますか?
データがマップされる組み合わせがあるまた、ゼロ平均(データの非線形変換を意味し、したがって分散の変化と入力データの他の特徴であろう)を有しているが。
これらの質問に答える参考文献が見つからないので、少し迷っています。