2
ニューラルネットワークとディシジョンフォレストのデータを正規化する方法
20000サンプルのデータセットがあり、それぞれに12の異なる機能があります。各サンプルは、カテゴリ0または1のいずれかにあります。ニューラルネットワークと決定フォレストをトレーニングしてサンプルを分類し、結果と両方の手法を比較できるようにします。 最初に遭遇したのは、データの適切な正規化です。一つの特徴は、範囲内にある、で別の[ 30 、40 ]、ほとんどが、私は異なるソースに読み取るように、入力データの適切な正規化を時々値8と7を取ることが一つの特徴がありますニューラルネットワークにとって重要です。私が知ったように、データを正規化する多くの可能な方法があります、例えば:[ 0 、106][0、106][0,10^6][ 30 、40 ][30、40][30,40] ミニマックス正規化:入力範囲は直線区間に変換され(または[ - 1 、1 ]、その問題していますか?)[ 0 、1 ][0、1][0,1][- 1 、1 ][−1、1][-1,1] Zスコアの正規化:データは平均がゼロで分散が単位に変換されます: yん E W= yo l d−意味するVar−−−√yんew=yold−平均Vary_{new}=\frac{y_{old}-\text{mean}}{\sqrt{\text{Var}}} どの正規化を選択する必要がありますか?意思決定フォレストにも正規化が必要ですか?Zスコアの正規化では、テストデータのさまざまな機能が同じ範囲内にありません。これは問題でしょうか?すべての機能を同じアルゴリズムで正規化して、すべての機能にMin-Maxを使用するか、すべての機能にZスコアを使用するかを決定する必要がありますか? データがマップされる組み合わせがあるまた、ゼロ平均(データの非線形変換を意味し、したがって分散の変化と入力データの他の特徴であろう)を有しているが。[ - 1 、1 ][−1、1][-1,1] これらの質問に答える参考文献が見つからないので、少し迷っています。