高次元データ:知っておくと便利なテクニックは何ですか?


14

次元のさまざまな呪いにより、多くの一般的な予測手法の精度と速度は、高次元データでは低下します。高次元のデータを効果的に処理するのに役立つ最も便利なテクニック/トリック/ヒューリスティックは何ですか?例えば、

  • 特定の統計/モデリング手法は、高次元のデータセットでうまく機能しますか?
  • 特定(距離の代替概念を定義する)またはカーネル(内積の代替概念を定義する)を使用して、高次元データの予測モデルのパフォーマンスを改善できますか?
  • 高次元データの次元削減の最も有用な手法は何ですか?

回答:


10

これは非常に広範な質問であり、単一の回答で包括的にカバーすることは不可能だと思います。したがって、関連する回答やリソースへのポインタを提供する方が有益だと思います。これは、私の次の情報と考えを提供することで私がやることです。

まず、Microsoft ResearchのBurges(2009)による次元削減に関する優れた包括的なチュートリアルに言及する必要があります。彼は、モノグラフ全体を通して、データの高次元の側面に頻繁に触れています。この作業では、次元削減次元削減と呼び、問題の理論的な紹介を行い射影法多様体モデリング法で構成される次元削減法の分類法を提案し、各カテゴリの複数の方法の概要を示します。

レビューされた「射影追跡」法には、独立成分分析(ICA)主成分分析(PCA)およびその変動カーネルPCAおよび確率的PCAなど)正準相関分析(CCA)およびそのカーネルCCA変動、線形判別分析(LDA)が含まれます)カーネル次元縮小(KDR)およびその他のいくつか。マニホールド審査方法には、多次元スケーリング(MDS)とそのランドマークMDSの変化、Isomapローカルでのリニアの埋め込みラプラシアン固有マップスペクトルクラスタリングなどのグラフィカルな方法。元の出版物がオンライン(上記のリンク)またはオフライン(参照)でアクセスできない場合に備えて、ここにレビュー済みのメソッドのほとんどをリストしています。

上記の作業に適用した「包括的」という用語には注意点があります。かなり包括的なものですが、これは相対的であり、次元削減へのアプローチのいくつかはモノグラフで議論されていません。特に、観測不可能な(潜在)変数に焦点を当てたものです。しかし、それらのいくつかは、別のソースへの参照で言及されています-次元削減に関する本。

ここで、関連する回答または関連する回答を参照して、問題のトピックのいくつかのより狭い側面を簡単に説明します。高次元データへの最近傍(NN)タイプのアプローチに関しては、ここで私の回答を参照してください(リストの4番目のペーパーを確認することを特にお勧めします)。次元の呪いの効果の1つは、高次元データが頻繁にまばらであることです。この事実を考えると、ここここでの回帰スパースで高次元のデータのPCAに関連する答えが役立つと思います。

参照資料

バージ、CJC(2010)。次元削減:ガイド付きツアー。Foundations andTrends®in Machine Learning、2(4)、275-365。doi:10.1561 / 2200000002


0

アレクサンダーは非常に包括的な答えを出していますが、非常に広く訴えられているものがいくつかあります。

次元削減のために、PCAが使用されますが、これは線形変換のみを行い、非線形次元削減のために、マニホールド学習はあなたが探しているものです。

カーネルを使用して、低次元のデータを高次元に投影できます。分類器が現在の次元で分離の線形平面を見つけることができないが、より高い次元でクラスを分離する線形超平面を見つけることができる場合、通常これを行います。カーネルはSVMで広く使用されています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.