なぜ低ランクの近似に悩まされるのですか?


20

n行m列の行列がある場合、SVDまたは他の方法を使用して、指定された行列の低ランク近似を計算できます。

ただし、低ランクの近似には、n行とm列が引き続きあります。同じ数の機能が残っている場合、低ランクの近似は機械学習と自然言語処理にどのように役立ちますか?


2
通常、それらはスパース表現を持ちます- 低ランクの近似のためにmn数値を保存する必要はありません。たとえば、ランク1の近似にはn+m個の数値が必要です。
確率的

回答:


16

低ランク近似XXは、として行列平方根に分解することができるG = U R λ 1バツ^バツの固有値分解XがあるUλUTそれによってで表すことができる機能の数、還元、Gとしてランクrの近似に基づいて、X=GGTを。下付き文字r は、近似で使用される固有ベクトルと固有値の数を表すことに注意してください。したがって、データを表すフィーチャの数が減ります。いくつかの例では、低ランク近似は、直交性、非負性(非負行列因子分解)などの特別な制約の下で、元データの基底または潜在変数(辞書)ベースの拡張と見なされます。G=うんrλr12バツうんλうんTGバツ^=GGTr


5

低ランク近似のポイントは、必ずしも次元削減を実行するためだけではありません。

アイデアは、ドメインの知識に基づいて、マトリックスのデータ/エントリが何らかの形でマトリックスを低ランクにすることです。しかし、それはエントリがノイズ、破損、欠損値などの影響を受けない理想的な場合です。通常、観測されたマトリックスのランクははるかに高くなります。

したがって、低ランクの近似は、「元の」(ノイズなどによって混乱する前の「理想的な」マトリックス)低ランクのマトリックスを復元する方法です。理想的なマトリックスの近似として使用できるように、現在のマトリックスでは低ランクです。このマトリックスを復元すると、ノイズの多いバージョンの代わりに使用でき、うまくいけばより良い結果が得られます。


4

これまで言及されていないもう2つの理由:

  1. 共線性の低減。これらの手法のほとんどは共線性を除去するものであり、これは後続処理に役立ちます。

  2. 私たちの想像力は低ランクなので、低ランクの関係を探索するのに役立ちます。



1

「現代の多変量統計手法(Izenman)」によると、ランクの低下回帰は、PCA、因子分析、正準変量および相関分析、LDA、コレスポンデンス分析などの特殊なケースとして、いくつかの興味深い方法をカバーします

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.