線形SVM分類を実行する場合、たとえば平均を減算して標準偏差で除算するなどして、トレーニングデータを正規化し、その後、トレーニングデータの平均と標準偏差でテストデータをスケーリングすることが役立ちます。このプロセスが分類パフォーマンスを劇的に変える理由は何ですか?
1
この質問はすでに回答済みですstackoverflow.com/questions/15436367/svm-scaling-input-values
—
jpmuc
ありがとう、ジャンパ!ただし、テストセットをトレーニングセットの平均値と標準値でスケーリングする必要がある理由は、それ自体ではなく、まだ明確ではありませんか?場合によっては、テストセットで2つのクラスのサンプルのバランスがよくとれている場合、後者の方が優れたパフォーマンスを示します。
—
清華
なぜならあなたは一貫していないからです。異なるデータでテストしています。ガウスN(mu、sigma)からサンプルを描画すると想像してください。N(0,1)でトレーニング(センタリングおよびスケーリング後)したが、N(mu、sigma)でテストした
—
-jpmuc