散布図からの特徴抽出


7

次のような散布図があるとします。

ここに画像の説明を入力してください

私はこのような散布図をたくさん持っているので(x,y)、NNに入力するために特徴変換、つまり単一の用語でスカッシュを実行したいと思います。どのタイプの変換x/y(x/y)^2または他の変換がこのタイプのグラフで最も効果的に機能するか、つまり、単一の項に押しつぶしながら分離をさらに増やします。

回答:


5

@David Masipが述べたように、主成分分析はここで使用するのに適した方法です。本質的にPCAは、データをできるだけ変化させずに高次元空間と低次元空間の間のマッピングを見つける方法であり、高次元データの次元削減に最適です。

ただし、この削減されたデータを使用してニューラルネットワークモデルをトレーニングする必要があると述べています。ニューラルネットは通常、フィーチャ間の相互作用やデータ内の他の隠された構造の識別に非常に優れているため、最初にニューラルネットモデルをトレーニングして、そのパフォーマンスを確認することをお勧めします。それがうまく機能しない場合、パフォーマンスを改善する1つのアプローチはPCAを使用することです。これは、ユースケース、コンテンツ/タイプ/データの量、ニューラルネットワークアーキテクチャなどに大きく依存します。

ps PCAは、高次元データを視覚化するのにも適しています(次元数を2または3次元に減らしてからプロットします。これは、上記のように一度に2つのフィーチャのみをプロットするよりも優れています)。


まあ私はpcaを使いたくありません。2次元のデータなので、手動による特徴抽出を考えました
DuttaA

3

あなたが探しているのはPCA(主成分分析)だと思います。あなたのケースでは、最初の主成分を取る必要があります。PCAでは、ほとんどのデータを説明する変数の線形結合を決定するプロセスを自動化できます。表示した画像では、最初のコンポーネントはおおよそプロットの垂直軸になります。PCAが何であるかわからない場合は、交差検証のこの素晴らしい回答を参照してください。



2

あなたのコメントを取る:

さて、pcaを使いたくありません。2次元のデータなので、手動での特徴抽出を考えました。

何か本当にあなたが行うことができます簡単なだけで使用することですy直接。のように見えますy23 散布図で赤と緑のグループを分離するのはかなりうまくいきます。

深さ1の決定木を当てはめることによりこのアプローチを他の変数のペア一般化して、各ペアの2つのグループを分離するための最良の単一変数分割を得ることができます。これらのルールを使用して、使用する単一の変数またはを選択するか、上記の提案のように、作成するバイナリ変数/フラグを選択できます。(i,j)ijy23

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.