特徴の数が一定であることを考えると、Barnes-Hut t-SNEはの複雑さを持ち、ランダムな投影とPCAは複雑さを持ち、非常に大きなデータセットに対して「手頃」になります。
一方、多次元スケーリングに依存するメソッドは複雑さを持っています。
複雑さがよりも低い他の次元削減手法(もちろん、最初の列を見るような簡単な手法を除くますか?
特徴の数が一定であることを考えると、Barnes-Hut t-SNEはの複雑さを持ち、ランダムな投影とPCAは複雑さを持ち、非常に大きなデータセットに対して「手頃」になります。
一方、多次元スケーリングに依存するメソッドは複雑さを持っています。
複雑さがよりも低い他の次元削減手法(もちろん、最初の列を見るような簡単な手法を除くますか?
回答:
興味深いオプションは、ニューラルベースの次元削減を調査することです。次元削減のために最も一般的に使用されるネットワークのタイプであるオートエンコーダーは、のコストでトレーニングできます。ここで、はトレーニングの反復を表します(トレーニングデータに依存しないハイパーパラメーターです)。 。したがって、トレーニングの複雑さは単純化されます。
ヒントンとサラクディノフによる2006年のセミナーの仕事[1]を見てみましょう。それ以来、物事は大きく進化しました。現在、ほとんどの目的はVariational Autoencoders [2]によって達成されていますが、基本的な考え方(出力レイヤーでボトルネックレイヤーを挟んで入力を再構築するネットワーク)は変わりません。PCAやRPとは対照的に、オートエンコーダーは非線形次元削減を実行することに注意してください。また、t-SNEとは対照的に、オートエンコーダーはモデル全体を再トレーニングする必要なく、見えないサンプルを変換できます。
実用的な面では、この投稿をご覧になることをお勧めします。この記事では、すばらしいライブラリKerasを使用して、さまざまなタイプのオートエンコーダーを実装する方法について詳しく説明しています。
[1]ヒントン、GE、およびサラクディノフ、RR(2006)。ニューラルネットワークを使用したデータの次元の削減。サイエンス、313(5786)、504〜507。
[2] Kingma、DP、およびWelling、M。(2013)。バリエーションベイの自動エンコード。arXivプレプリントarXiv:1312.6114。
すでに述べたオートエンコーダに加えて、ランダムな投影法またはランダムな部分空間法でジョンソンリンデンシュトラウスの補題を利用することができます。ランダム射影はであり、は次元のサンプル数、はターゲット次元のサンプルです(cf [1])。
少しグーグルすると、特にスパースデータセットの場合に、ごく最近の結果が得られます。