回答:
@David Masipが述べたように、主成分分析はここで使用するのに適した方法です。本質的にPCAは、データをできるだけ変化させずに高次元空間と低次元空間の間のマッピングを見つける方法であり、高次元データの次元削減に最適です。
ただし、この削減されたデータを使用してニューラルネットワークモデルをトレーニングする必要があると述べています。ニューラルネットは通常、フィーチャ間の相互作用やデータ内の他の隠された構造の識別に非常に優れているため、最初にニューラルネットモデルをトレーニングして、そのパフォーマンスを確認することをお勧めします。それがうまく機能しない場合、パフォーマンスを改善する1つのアプローチはPCAを使用することです。これは、ユースケース、コンテンツ/タイプ/データの量、ニューラルネットワークアーキテクチャなどに大きく依存します。
ps PCAは、高次元データを視覚化するのにも適しています(次元数を2または3次元に減らしてからプロットします。これは、上記のように一度に2つのフィーチャのみをプロットするよりも優れています)。
あなたのコメントを取る:
さて、pcaを使いたくありません。2次元のデータなので、手動での特徴抽出を考えました。
何か本当にあなたが行うことができます簡単なだけで使用することです直接。のように見えます 散布図で赤と緑のグループを分離するのはかなりうまくいきます。
深さ1の決定木を当てはめることによりこのアプローチを他の変数のペア一般化して、各ペアの2つのグループを分離するための最良の単一変数分割を得ることができます。これらのルールを使用して、使用する単一の変数またはを選択するか、上記の提案のように、作成するバイナリ変数/フラグを選択できます。