特異値分解のポイントは何ですか?


9

なぜ寸法を小さくすることが重要なのかわかりません。一部のデータを取得してその次元を削減することの利点は何ですか?


3
質問の調子は建設的な答えを招きません。質問の言い換えを検討してください。
サーシャ

2
重要なのは、正確さのわずかな損失(JPEG画像圧縮など)を犠牲にして、特定の情報を格納するために必要なデータの量を減らすことです。
サーシャ

2
@Sashaさん、コメントありがとうございます。これは理にかなった質問なので、元の文言が伝える鈍感(意図しないもの)の印象を避けるために、少し編集しました。
whuber

例については、stats.stackexchange.com / questions / 177102 /…を参照してください。
kjetil b halvorsen 2017

確率論的ではないトピックモデリングに対してSVDを実行します。確率論的なトピックモデリングにはLDAを使用します。トピックモデリングを行わない場合は、PCAを使用してください。
ブラッド

回答:


18

特異値分解(SVD)は、データの次元数を削減することと同じではありません。これは、マトリックスを他のマトリックスに分解する方法であり、ここでは説明しませんが、多くの素晴らしいプロパティがあります。SVDの詳細については、ウィキペディアのページをご覧ください

データの次元を削減すると、非常に役立つ場合があります。観察よりも多くの変数がある可能性があります。これはゲノム研究では珍しいことではありません。たとえば、それらが少数の潜在的な要因の影響を大きく受けている場合など、非常に高い相関があるいくつかの変数があり、潜在的な要因への近似を回復したい場合があります。主成分分析、多次元スケーリング、正準変量分析などの次元削減技法により、他の方法では取得できない可能性のある観測値や変数間の関係についての洞察が得られます。

具体例:数年前、100を超える質問があった従業員満足度調査を分析していました。まあ、どのようなマネージャーも、回答の100以上の質問の価値を見て、要約することはできません。そして、それが何を意味するのかを推測する以上のことはできません。 ?私は10,000を超える観測結果が得られたデータに対して因子分析を実行し、全体を要約するマネージャー固有のスコア(因子ごとに1つ)を作成するために使用できる5つの非常に明確で容易に解釈可能な因子を導き出しました100以上の質問アンケート。以前の結果報告方法であったExcelスプレッドシートダンプよりもはるかに優れたソリューションです。


次元削減のために「シンSVD」と呼ばれる方法が使用されます。SVDのWikipediaを参照してください。
サイボーグ

5

質問の2つ目のポイントに関して、データセットの次元削減の利点は次のとおりです。

  • 必要な保管スペースを減らす
  • 計算を高速化します(たとえば、機械学習アルゴリズムで)、次元が少ないほど、計算が少なくなります。また、次元が少ないと、多数の次元に適さないアルゴリズムを使用できるようになります。
  • 冗長機能を削除します。たとえば、地形のサイズを平方メートルと平方マイルの両方に保存しても意味がありません(データ収集に問題があった可能性があります)
  • データの次元を2Dまたは3Dに削減すると、データをプロットして視覚化したり、パターンを観察したり、洞察を与えたりできます

それ以外に、PCAを超えて、SVDには信号処理、NLPなどの多くのアプリケーションがあります。


2

私のこの答えを見てください。特異値分解は、主成分分析主要なコンポーネントです。これは、非常に便利で強力なデータ分析手法です。

顔認識アルゴリズムでよく使用されており、私はヘッジファンドアナリストとしての日常業務で頻繁に使用しています。


1
SVDとPCA(関連している間)の手順は異なりませんか?
B_Miner

2
あなたが正しいです。SVDは、PCA問題の解決策を取得する方法です。
bayerj

1
@B_Minerはい-そのため、私はsvdがpcaの重要なコンポーネントであると述べました。質問は次元削減に関するものであるため(pcaが適切であり、svdは適切ではないため)、pcaに焦点を当てました
Chris Taylor

おそらく、コンポーネントの選択という言葉は、@ B_Minerを一時的に捨てたものでした。:)
枢機卿
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.