最近のKaggleコンテストでは、トレーニングセット用に10の追加機能を手動で定義しました。これらの機能は、ランダムフォレスト分類器のトレーニングに使用されます。新しい機能を備えたデータセットに対してPCAを実行し、それらが互いにどのように比較されているかを確認することにしました。分散の〜98%が最初の成分(最初の固有ベクトル)によって運ばれることがわかりました。次に、分類器を複数回トレーニングし、一度に1つの機能を追加し、交差検証とRMSエラーを使用して分類の品質を比較しました。機能を追加するごとに分類が改善され、最終結果(10個の新しい機能すべてを含む)が(たとえば)2個の機能を使用した最初の実行よりもはるかに優れていることがわかりました。
PCAが分散の〜98%がデータセットの最初のコンポーネントにあると主張したのに、なぜ分類の品質はそれほど向上したのですか?
これは他の分類器にも当てはまりますか?RFは複数のコアにまたがるので、トレーニングは(たとえば)SVMよりもはるかに高速です。
データセットを「PCA」空間に変換し、変換した空間で分類器を実行した場合はどうなりますか。結果はどのように変わりますか?