統計とビッグデータ svd

3

ドキュメントクラスタリングで使用されるさまざまな手法を調査していますが、PCA（主成分分析）およびLSA（潜在的意味分析）に関するいくつかの疑問をクリアしたいと思います。まず、それらの違いは何ですか？PCAでは、SVD分解が用語共分散行列に適用されるのに対して、LSAでは用語文書行列です。他に何かありますか？第二-文書クラスタリング手順における彼らの役割は何ですか？これまで読んだことから、それらの目的は次元の削減、ノイズの削減、表現間の用語間の関係の組み込みであると推測します。PCAまたはLSAを実行した後、k-meansやagglomerative methodなどの従来のアルゴリズムが縮小タームスペースに適用され、コサイン距離などの一般的な類似度が使用されます。私が間違っている場合は修正してください。第三-PCA / LSAを適用する前にTF / IDF項ベクトルを正規化するかどうかは重要ですか？そして、その後、再び正規化する必要がありますか？ 4番目-LSA / PCAによって削減された用語スペースでクラスタリングを実行したとしましょう。次に、結果クラスターにラベルをどのように割り当てる必要がありますか？寸法は実際の単語に対応していないため、かなり難しい問題です。私の頭に浮かぶ唯一のアイデアは、元の用語ベクトルを使用して各クラスターの重心を計算し、上位の重みを持つ用語を選択することですが、あまり効率的ではありません。この問題の特定の解決策はありますか？何も見つかりませんでした。これらの問題を明確にしてくれてとても感謝しています。

25 clustering pca data-mining svd lsa

2

データのSVDによるデータのPCAが必要な理由

この質問は、主成分を計算する効率的な方法に関するものです。 casewise dataの特異値分解を使用した線形PCAの多くのテキスト。つまり、データあり、変数（その列）を主成分で置き換えたい場合、SVDを実行します。、特異値（固有値の平方根）の主対角を占める、右固有ベクトルは、軸変数から軸コンポーネントへの直交回転行列です。左固有ベクトルは、場合のみに似ています。その後、コンポーネント値をとして計算できます。XX\bf XX=USV′X=USV′\bf X=USV'SS\bf SVV\bf VUU\bf UVV\bf VC=XV=USC=XV=US \bf C=XV=US 変数のPCAを行う別の方法は、分解を経由している（つまり正方行列でき相関または共分散の変数の間、など）。分解は、固有分解または特異値分解である可能性があります：正方対称正定行列では、前述の\ bf Lおよび\ bf Vの対角要素と同じ固有値を持つ\ bf R = VLV 'と同じ結果が得られます。コンポーネントの値は\ bf C = XVになります。R=X′XR=X′X\bf R=X'XRR\bf R R=VLV′R=VLV′\bf R=VLV'LL\bf LVV\bf VC=XVC=XV\bf C=XV さて、私の質問：データXX\bf Xが大きな行列であり、ケースの数が（多くの場合）変数の数よりはるかに大きい場合、ウェイ（1）はウェイ（2 ）、方法（1）は非常に高価なアルゴリズム（SVDなど）を大きなマトリックスに適用するため。巨大な行列UU\bf Uを計算して保存しますが、この場合は実際には必要ありません（変数のPCA）。もしそうなら、なぜそんなに多くのtexbookが主張しているように見える、または単に方法（1）だけに言及しているように見えるのでしょうか？たぶんそれは効率的で、私は何かが欠けていますか？

22 pca algorithms svd matrix-decomposition

3

SVDを協調フィルタリングの問題に適用するとどうなりますか？2つの違いは何ですか？

協調フィルタリングでは、入力されていない値があります。ユーザーが映画を見なかった場合、そこに「na」を入力する必要があります。このマトリックスのSVDを取得する場合、そこにいくつかの数値（0など）を入力する必要があります。マトリックスを因数分解すると、同様のユーザーを見つける方法があります（どのユーザーが縮小された次元空間）。しかし、予測される嗜好自体-アイテムに対するユーザーにとってはゼロになります。（なぜなら、未知の列に入力したものだからです）。そのため、共同フィルタリングとSVDの問題に悩まされています。それらはほとんど同じように見えますが、完全ではありません。それらの違いは何ですか？SVDを協調フィルタリング問題に適用するとどうなりますか？私はそうしましたが、結果は近くのユーザーを見つけるという点で許容できるように見えますが、これは素晴らしいですが、どのようにですか？

21 machine-learning svd recommender-system

3

次元数がサンプル数より大きい場合のPCA

私は、分類器に渡す必要がある14000個のデータポイント（次元）を含む10人（つまり100個のサンプル）に対して1人あたり10個の信号があるシナリオに遭遇しました。このデータの次元数を減らしたいのですが、PCAがそうするようです。ただし、サンプルの数が次元の数よりも大きいPCAの例を見つけることしかできませんでした。SVDを使用してPCを検出するPCAアプリケーションを使用しています。100x14000データセットを渡すと101個のPCが返されるため、ほとんどのディメンションは明らかに無視されます。プログラムは、最初の6台のPCに90％の分散が含まれることを示しています。これらの101台のPCには本質的にすべての分散が含まれており、残りの次元は無視できるというのは合理的な仮定ですか？私が読んだ論文の1つは、自分のデータセットと同様の（わずかに低い品質）データセットを使用して、4500の次元を80に減らして元の情報の96％を保持できたと主張しています。使用されたPCA手法の詳細に関する論文の手振り、3100サンプルのみが利用可能であり、PCAを実際に実行するために使用されたサンプルよりも少ないサンプルを信じる理由があります（分類段階からバイアスを取り除くため）。私は何かを見逃していますか、これは本当にPCAが高次元で低サンプルサイズのデータセットで使用される方法ですか？フィードバックは大歓迎です。

21 pca dimensionality-reduction svd

3

ランダムデータのSVD結果における奇妙な相関。彼らは数学的な説明を持っていますか、それはLAPACKのバグですか？

ランダムデータのSVD結果に非常に奇妙な動作が見られます。これは、MatlabとRの両方で再現できます。LAPACKライブラリの数値の問題のようです。それは...ですか？平均がゼロで、共分散がゼロの次元ガウスからサンプルを描画します：。データ行列にアセンブルします。（オプションで中央に配置するかどうかは、以下に影響しません。）次に、特異値分解（SVD）を実行してを取得します。 2つの特定の要素、たとえばと取り上げて、異なる描画間でそれらの間の相関関係をみましょう。数字があれば、K = 2 X 〜N（0 、I）1000年× 2 X X X = U S V ⊤ U U 11 U 22 X N個のR EのPn=1000n=1000n=1000k=2k=2k=2X∼N(0,I)X∼N(0,I)X\sim \mathcal N (0, \mathbf I)1000×21000×21000 \times 2XX\mathbf XXX\mathbf XX=USV⊤X=USV⊤\mathbf X=\mathbf{USV}^\topUU\mathbf UU11U11U_{11}U22U22U_{22}XX\mathbf XNrepNrepN_\mathrm{rep}描画のは適度に大きいため、このような相関はすべてゼロに近いはずです（つまり、母集団の相関はゼロでなければならず、サンプルの相関は小さくなります）。ただし、、、、および間で、これらの要素間でのみ、いくつかの奇妙な強い相関関係（約）が観察されます。他のすべての要素のペアには、予想どおりゼロ付近の相関があります。ここではどのようにするための相関行列20の「上部」の要素Uが\ mathbf（最初のように見える10個の、最初の列の要素、最初の10秒の列の要素）。U 11 U 12 U 21 U 22±0.2±0.2\pm0.2U11U11U_{11}U12U12U_{12}U21U21U_{21}U22U22U_{22}U 10 10202020UU\mathbf U101010101010 各象限の左上隅にある奇妙に高い値に注意してください。 …

21 pca svd linear-algebra numerics

1

「スペクトル分解」によるリッジ回帰を使用した収縮係数の証明

リッジ回帰により、係数が幾何学的にゼロに縮小する方法を理解しました。さらに、特別な「正規直交ケース」でそれを証明する方法を知っていますが、「スペクトル分解」を介して一般的なケースでそれがどのように機能するか混乱しています。

20 regression multiple-regression regularization ridge-regression svd

2

SVAがPCAより優れている点はありますか？

私は、PCAとSVDを数学的に計算する方法を知っています。そして、両方が線形最小二乗回帰に適用できることを知っています。 SVDの主な利点は、数学的には、非正方行列に適用できることです。どちらも行列の分解に焦点を当てています。前述のSVDの利点以外に、PCAよりもSVDを使用することで得られる追加の利点や洞察はありますか？バツ⊤バツバツ⊤バツX^\top X 数学的な違いではなく、直感を本当に探しています。

20 pca least-squares svd

6

非ガウスデータのPCA

PCAについて簡単な質問がいくつかあります。 PCA は、データセットがガウスであると想定していますか？本質的に非線形データにPCAを適用するとどうなりますか？データセットが与えられた場合、プロセスはまず平均正規化を行い、分散を1に設定し、SVDを取得し、ランクを下げ、最後にデータセットを新しいランクを下げた新しいスペースにマッピングします。新しい空間では、各次元は最大分散の「方向」に対応します。しかし、新しい空間でのそのデータセットの相関は常にゼロですか、それとも本質的にガウスのデータにのみ当てはまりますか？「A」と「B」の2つのデータセットがあり、「A」がガウス分布からランダムにサンプリングされたポイントに対応し、「B」が別の分布（ポアソンなど）からランダムにサンプリングされたポイントに対応するとします。 PCA（A）とPCA（B）はどのように比較されますか？新しい空間内の点を調べることにより、PCA（A）がガウスからサンプリングされた点に対応し、PCA（B）がポアソンからサンプリングされた点に対応することをどのように判断できますか？「A」のポイントの相関は0ですか？「B」の点の相関も0ですか？さらに重要なことは、私は「正しい」質問をしているのですか？相関関係を調べる必要がありますか、それとも考慮すべき別のメトリックがありますか？

20 pca svd

1

PCAバイプロット上の矢印の配置

JavaScriptで主成分分析（PCA）のバイプロットを実装したいと考えています。私の質問は、データ行列の特異ベクトル分解（SVD）の出力から矢印の座標をどのように決定するのですか？U,V,DU,V,DU,V,D Rが生成するバイプロットの例を次に示します。 biplot(prcomp(iris[,1:4])) 私はそれを見上げてみましたバイプロット上のWikipediaの記事が、それは非常に便利ではありません。または修正します。どっちがわからない。

18 pca svd biplot

5

マトリックス分解に関する重要な論文

最近、マトリックス分解に関するSkillicornの本を読みましたが、学部の聴衆を対象としていたため、少しがっかりしました。マトリックス分解に関する重要な論文（調査だけでなく、画期的な論文）の短い参考文献を（自分や他の人のために）編集したいと思います。私が念頭に置いているのは、主にSVD / PCA（および堅牢/スパースバリアント）とNNMFに関するものです。みなさんは、何か提案/提案がありますか？私は答えを偏らせないために私のものを控えています。各回答を2〜3論文に限定してください。 PS：これら2つの分解は、データ分析で最もよく使用されるものです。もちろん数値解析では、QR、コレスキー、LU、およびポーラーが非常に重要です。しかし、それは私の質問の焦点ではありません。

18 matrix-decomposition svd numerics

1

カーネルPCAの標準PCAに対する利点は何ですか？

カーネルSVDを使用してデータ行列を分解する論文にアルゴリズムを実装したい。そのため、カーネルメソッドやカーネルPCAなどに関する資料を読んでいます。しかし、特に数学的な詳細に関しては非常にわかりにくいので、いくつか質問があります。カーネルメソッドを使用する理由または、カーネルメソッドの利点は何ですか？直感的な目的は何ですか？非カーネル法と比較して、実世界の問題でははるかに高い次元空間がより現実的であり、データ内の非線形関係を明らかにできると仮定していますか？資料によると、カーネルメソッドは、データを高次元の特徴空間に投影しますが、新しい特徴空間を明示的に計算する必要はありません。代わりに、特徴空間内のデータポイントのすべてのペアの画像間の内積のみを計算すれば十分です。では、なぜ高次元の空間に投影するのでしょうか？それどころか、SVDは機能スペースを削減します。なぜ彼らは異なる方向でそれを行うのですか？カーネルメソッドはより高い次元を求め、SVDはより低い次元を求めます。私には、それらを組み合わせるのは奇妙に聞こえます。私が読んでいる論文（Symeonidis et al。2010）によると、SVDの代わりにカーネルSVDを導入すると、データのスパース性の問題に対処でき、結果が改善されます。図の比較から、KPCAがPCAよりも高い分散（固有値）の固有ベクトルを取得していることがわかります。固有ベクトルへの点の射影の最大差（新しい座標）については、KPCAは円であり、PCAは直線であるため、KPCAはPCAよりも大きな分散を取得します。それで、それはKPCAがPCAよりも高い主成分を取得するということですか？

18 pca svd kernel-trick

1

行列に1つの新しい行を追加した後のSVD分解の更新

Iが密行列があるとのM × N個の SVD分解を伴う大きさ、A = U S Vを ⊤。では、次のようにSVDを計算できます。AA \textbf{A}m × nm×nm \times nA = U S V⊤。A=USV⊤.\mathbf{A}=\mathbf{USV}^\top.Rsvd(A) 新しい番目の行がAに追加された場合、SVDをゼロから再計算せずに、古いものに基づいて（つまりU、S、およびVを使用して）新しいSVD分解を計算できますか？（m + 1 ）(m+1)(m+1)AA\mathbf AうんU\mathbf USS\mathbf SVV\mathbf V

17 algorithms svd linear-algebra matrix-decomposition numerics

1

特異値分解（SVD）を計算するための効率的なアルゴリズムとは何ですか？

主成分分析に関するウィキペディアの記事には、マトリックスX T Xを形成することなくのSVDを計算する効率的なアルゴリズムが存在するため、SVDの計算は、少数のコンポーネントのみが必要な場合を除き、データマトリックスから主成分分析を計算する標準的な方法になりました。XXXXTXXTXX^TX 誰かがこの記事で話している効率的なアルゴリズムを教えてもらえますか？参照はありません（この計算方法を提案している記事へのURLまたは引用は良いでしょう）。

17 pca algorithms svd numerics

4

SVD / PCAの変数の「正規化」

我々が持っていると仮定測定可能な変数、、我々は数やる、測定のをしてから実行したい特異値分解をするために最高の分散の軸を見つけるために、結果にポイント次元空間。（注：の平均はすでに減算されていると仮定しているため、すべてのについてです。）（1、2、... 、N）M > N M N A I ⟨ A I ⟩ = 0 INNN(a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N)M>NM>NM > NMMMNNNaiaia_i⟨ai⟩=0⟨ai⟩=0\langle a_i \rangle = 0iii ここで、変数の1つ（またはそれ以上）が、他と大きく異なる特性の大きさを持っていると仮定します。たとえば、値はの範囲で、残りはです。これにより、分散が最も大きい軸がの軸に向かって大きくます。 10 − 100 0.1 − 1 a 1a1a1a_110−10010−10010-1000.1−10.1−10.1-1a1a1a_1 大きさの違いは、測定単位の不幸な選択のためかもしれません（たとえば、物理データ、たとえばキロメートルとメートルの場合）が、実際には異なる変数はまったく異なる次元（たとえば、重量と体積）を持っている可能性があります。それらに「同等の」ユニットを選択する明白な方法はないかもしれません。質問：この問題を回避するためにデータを正規化する標準/一般的な方法が存在するかどうかを知りたいです。私は、何か新しいものをよりも、この目的のために匹敵する大きさを生成する標準的な手法にもっと興味を持っています。a1−aNa1−aNa_1 - a_N 編集： 1つの可能性は、各変数をその標準偏差または同様のもので正規化することです。ただし、次の問題が発生します。データを次元空間の点群として解釈してみましょう。この点群は回転させることができ、このタイプの正規化は、回転に応じて（SVD後の）最終結果が異なります。（例えば、最も極端な場合、データを正確に回転させて主軸を主軸に合わせると想像してください。）NNN これを行うための回転不変の方法はないだろうと期待していますが、特に結果の解釈の警告に関して、誰かがこの問題についての文献の議論を指摘してくれれば幸いです。

17 pca data-transformation normalization dimensionality-reduction svd

1

多変量ガウスデータのPCAコンポーネントは統計的に独立していますか？

データが多変量正規分布している場合、PCAコンポーネント（主成分分析）は統計的に独立していますか？もしそうなら、どのようにこれを実証/証明できますか？私が尋ねたのは、この投稿を見たので、トップの答えは次のとおりです： PCAは、明示的なガウス性の仮定を行いません。データで説明された分散を最大化する固有ベクトルを見つけます。主成分の直交性は、データの可能な限り多くの変動を説明するために最も相関のない成分を見つけることを意味します。多変量ガウス分布の場合、成分間のゼロ相関は独立性を意味し、ほとんどの分布には当てはまりません。答えは証拠なしに述べられており、データが多変量正規である場合、PCAが独立したコンポーネントを生成することを暗示しているようです。具体的には、データが次のサンプルであるとします。 x∼N(μ,Σ)x∼N(μ,Σ)\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma}) 我々は置くのサンプルサンプルの我々の行列の行にので、ある。のSVDの計算（センタリング後）nnnxx\mathbf{x}XX\mathbf{X}XX\mathbf{X}n×mn×mn \times mXX\mathbf{X} X=USVTX=USVT\mathbf{X} = \mathbf{USV}^{T} の列は統計的に独立しており、行も統計的に独立していると言えますか？これは一般に、に当てはまるのですか、それともまったく当てはまりませんか？UU\mathbf{U}VTVT\mathbf{V}^Tx∼N(μ,Σ)x∼N(μ,Σ)\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma})

16 pca independence svd

タグ付けされた質問 「svd」

タグ付けされた質問「svd」