統計とビッグデータ lsa

3

ドキュメントクラスタリングで使用されるさまざまな手法を調査していますが、PCA（主成分分析）およびLSA（潜在的意味分析）に関するいくつかの疑問をクリアしたいと思います。まず、それらの違いは何ですか？PCAでは、SVD分解が用語共分散行列に適用されるのに対して、LSAでは用語文書行列です。他に何かありますか？第二-文書クラスタリング手順における彼らの役割は何ですか？これまで読んだことから、それらの目的は次元の削減、ノイズの削減、表現間の用語間の関係の組み込みであると推測します。PCAまたはLSAを実行した後、k-meansやagglomerative methodなどの従来のアルゴリズムが縮小タームスペースに適用され、コサイン距離などの一般的な類似度が使用されます。私が間違っている場合は修正してください。第三-PCA / LSAを適用する前にTF / IDF項ベクトルを正規化するかどうかは重要ですか？そして、その後、再び正規化する必要がありますか？ 4番目-LSA / PCAによって削減された用語スペースでクラスタリングを実行したとしましょう。次に、結果クラスターにラベルをどのように割り当てる必要がありますか？寸法は実際の単語に対応していないため、かなり難しい問題です。私の頭に浮かぶ唯一のアイデアは、元の用語ベクトルを使用して各クラスターの重心を計算し、上位の重みを持つ用語を選択することですが、あまり効率的ではありません。この問題の特定の解決策はありますか？何も見つかりませんでした。これらの問題を明確にしてくれてとても感謝しています。

25 clustering pca data-mining svd lsa

4

EMアルゴリズムの高速な代替

潜在変数（特にpLSA）を含むモデルを学習するためのEMアルゴリズムの高速な代替手段はありますか？速度を優先して精度を犠牲にしても大丈夫です。

13 machine-learning optimization expectation-maximization lsa

3

コサイン類似度とユークリッド距離（LSA）のK平均

潜在的意味解析を使用して、低次元空間でドキュメントのコーパスを表現しています。これらのドキュメントをk-meansを使用して2つのグループにクラスター化したいと思います。数年前、私はPythonのgensimを使用してこれを行い、独自のk-meansアルゴリズムを作成しました。ユークリッド距離を使用してクラスターの重心を決定しましたが、重心とのコサイン類似性に基づいて各ドキュメントをクラスター化しました。かなりうまくいったようです。今、私はこれをはるかに大きなドキュメントのコーパスで実行しようとしています。K-meansは収束しておらず、コードのバグかどうか疑問に思っています。最近読んだのは、コサイン類似度を使用してクラスター化しないことです。k平均はユークリッド距離でのみ機能するためです。私が述べたように、それでも私の小さなテストケースではうまく機能するように見えました。 LSA Wikipediaページでこれに遭遇しました：ドキュメントと用語ベクトル表現は、コサインのような類似性測定を使用するk-meansのような従来のクラスタリングアルゴリズムを使用してクラスター化できます。どっち？コサイン類似度を使用できますか？

10 k-means svd lsa cosine-distance cosine-similarity

1

LSAとpLSAの間の並列

pLSAの最初の論文では、著者のThomas Hoffmanが、pLSAとLSAのデータ構造の類似点を説明します。バックグラウンド：情報検索からインスピレーションを得て、ドキュメントのコレクションと用語の語彙NNND={d1,d2,....,dN}D={d1,d2,....,dN}D = \lbrace d_1, d_2, ...., d_N \rbraceMMMΩ={ω1,ω2,...,ωM}Ω={ω1,ω2,...,ωM}\Omega = \lbrace \omega_1, \omega_2, ..., \omega_M \rbrace コーパスで表すことができる cooccurencesのマトリックス。XXXN×MN×MN \times M 潜在的意味AnalisysによってSVD行列 3つの行列に因数分解される：ここでと特異値でありますとのランクである。XXXX=UΣVTX=UΣVTX = U \Sigma V^TΣ=diag{σ1,...,σs}Σ=diag{σ1,...,σs}\Sigma = diag \lbrace \sigma_1, ..., \sigma_s \rbraceσiσi\sigma_iXXXsssXXX 次に、図に示すように、のLSA近似が計算され、3つの行列がいくつかのレベルに切り捨てられます。X = U Σ ^ V T K < SXXX X^=U^Σ^VT^X^=U^Σ^VT^\hat{X} = …

9 machine-learning conditional-probability svd information-retrieval lsa

1

PCAとLSA / LSIの比較

質問： PCAとLSA / LSIのどちらを適用するかを決定するために使用できる、入力データの特性に関する一般的なガイドラインはありますか？ PCAとLSA / LSIの概要：主成分分析（PCA）と潜在的意味分析（LSA）または潜在的意味索引付け（LSI）は、すべてが基本的に特異値分解（SVD）をマトリックスに適用することに依存しているという意味で類似しています。 LSAとLSIは、私の知る限り、同じものです。LSAはPCAと基本的に異なりませんが、SVDを適用する前にマトリックスエントリを前処理する方法が異なります。 LSAの前処理ステップでは、通常、列が「ドキュメント」に対応し、行が何らかの種類の単語に対応するカウントマトリックスを正規化します。エントリは、ある種の（正規化された）文書の単語出現回数と考えることができます。 PCAでは、前処理ステップでは、元の行列から共分散行列を計算します。元のマトリックスは、概念的にはLSAの場合よりも本質的に「一般的」です。PCAが関係する場合、列は通常、一般的なサンプルベクトルを指すと言われ、行は測定される個々の変数を指すと言われます。共分散行列は定義により正方対称であり、共分散行列は対角化によって分解できるため、実際にはSVDを適用する必要はありません。特に、PCAマトリックスはLSA / LSIバリアントよりもほぼ確実に密度が高くなります。ゼロエントリは、変数間の共分散がゼロの場合、つまり変数が独立している場合にのみ発生します。最後に、2つを区別するためにかなり頻繁に行われるもう1つの説明的なポイントは、 LSAはフロベニウスノルムで最高の線形部分空間を求め、PCAは最高のアフィン線形部分空間を目指します。いずれにせよ、これらの手法の違いと類似性はインターネット全体のさまざまなフォーラムで激しく議論されており、明らかにいくつかの顕著な違いがあり、明らかにこれらの2つの手法は異なる結果を生み出します。したがって、私の質問を繰り返します。PCAとLSA / LSIのどちらを適用するかを決定するために使用できる、入力データの特性に関する一般的なガイドラインはありますか？用語ドキュメントマトリックスに似たものがある場合、LSA / LSIが常に最良の選択になりますか？LSA / LSIの用語/ドキュメントマトリックスを準備して、SVDを直接適用するのではなく、PCAを結果に適用することで、より良い結果が得られると期待できますか？

9 machine-learning pca lsa

タグ付けされた質問 「lsa」

タグ付けされた質問「lsa」