次元削減とは逆の方法はありますか?


9

私は機械学習の分野に不慣れですが、私の信号処理を担当しました。この質問に誤ったラベルが付けられている場合はお知らせください。

少なくとも3つの変数で定義された2次元データがあり、非常に非線形なモデルではシミュレーションが複雑すぎます。

PCAやICA(PythonライブラリScikit-Learnから)などのメソッドを使用してデータから2つの主要コンポーネントを抽出するのにさまざまなレベルの成功を収めてきましたが、これらのメソッド(または少なくともメソッドの実装)は制限されているようですたとえば、2D点群から2つのコンポーネントを抽出するなど、データのディメンションと同じ数のコンポーネントを抽出します。

データをプロットするとき、3つの異なる線形傾向があることが訓練された目には明らかです。3つの色の線は方向を示します。

データプロット

PCAを使用する場合、予想どおり、主成分はカラーラインの1つに揃えられ、もう1つは90°に配置されます。ICAを使用する場合、最初のコンポーネントは青の線に揃えられ、2番目のコンポーネントは赤と緑のコンポーネントの間のどこかにあります。私の信号の3つのコンポーネントすべてを再現できるツールを探しています。

編集、追加情報:私はここで、より大きな位相平面の小さなサブセットで作業しています。この小さなサブセットでは、各入力変数は平面上で線形の変化を生成しますが、この変化の方向と振幅は非線形であり、作業しているより大きな平面上の正確な場所に依存します。一部の場所では、2つの変数が縮退している可能性があります。それらは同じ方向に変化をもたらします。たとえば、モデルがX、Y、Zに依存するとします。変数Xを変更すると、青い線に沿って変化が生じます。Yは緑の線に沿って変化を引き起こします。Z、赤いものに沿って。


3
私が正しく理解していれば、あなたが探しているコンセプトはembeddingです。見上げてカーネル法を、そしてカーネルPCA特にインチ
Emre

1
よくわからないので、回答として投稿しません。ニューラルネットワークタイプのモデルでは、非表示レイヤーの次元>入力レイヤーの次元を維持できます。次に、非表示層を別のネットワーク/モデルへの入力として使用できます。ただし、そのためには大量のデータが必要です。
Azrael 2015年

少なくとも3つの変数によって定義された2次元データと言うとき、「変数」という用語をどのような意味で使用しますか?クラスは適切な置換でしょうか?PCAがデータから最大のバリアントディメンションを抽出することは注目に値します。これは必ずしも適用する最も識別力のある変換ではありません。クラスタリングを見たことがありますか?
image_doctor

モデルの非線形性について何か知っていますか?シミュレーションするには複雑すぎるかもしれませんが、最大で3次多項式で構成されていることを知っていると、フィーチャエンジニアリングが大幅に制限されます。たとえば、すべての3次多項式を追加してから、PCAで3Dに戻すことができます。
AN6U5 2015

私は統計学者の友人と話し合いました。私は勾配を探しているので、データの導関数にカーネルPCAを使用することを提案しました。派生物を「特徴エンジニアリング」とみなしますか?
PhilMacKay 2015

回答:


8

短い答えはイエスです。

基本的に、ある種の機能エンジニアリングを実行します。これは、データの一連の関数を構築することを意味し、多くの場合:

φjバツRpR   j=1K

φバツK

これを行うには、良い方法と悪い方法がいくつかあります。次のような用語を検索したい場合があります。

  1. スプラインと一般化された加法モデル。
  2. K
  3. バツ2
  4. 深層学習、表現学習

さまざまなテクニックのバッグから推測できるように、これは大きな領域です。言うまでもありませんが、過剰適合を避けるために注意が必要です。

このペーパー「表現学習:レビューと新しい視点」では、ディープラーニングの観点から、特定の機能セットを「良い」ものにするためのいくつかの問題を扱います。


-2

新しい機能を引き出す機能を探していると思います。データセットを最もよく表す特徴。その場合、そのようなメソッドを「特徴抽出」と呼びます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.