統計とビッグデータ topic-models

4

トピックモデリング/ LDAを実行するためのRパッケージ：単に `topicmodels`と` lda` [終了]

潜在ディリクレ割り当てを実行できるのは2つのRパッケージのみであるように思われます。 1つはlda、Jonathan Changによって作成されました。もう1つはtopicmodelsBettinaGrünとKurt Hornikによって作成されました。パフォーマンス、実装の詳細、および拡張性に関して、これら2つのパッケージの違いは何ですか？

29 r bayesian text-mining topic-models latent-dirichlet-alloc

3

トピックモデルと単語の共起法

LDAのような人気のあるトピックモデルは通常、同じトピック（クラスター）に共起する傾向がある単語をクラスター化します。このようなトピックモデルと、PMIのような他の単純な共起ベースのクラスタリングアプローチの主な違いは何ですか？（PMIはPointwise Mutual Informationの略で、特定の単語と共起する単語を識別するために使用されます。）

26 machine-learning text-mining natural-language topic-models

2

トピックモデルのトピックの安定性

私は、一連の自由記述式エッセイの内容に関する情報を抽出したいプロジェクトに取り組んでいます。この特定のプロジェクトでは、148人が、大規模な実験の一環として、仮想の学生組織についてのエッセイを書きました。私の分野（社会心理学）では、これらのデータを分析する典型的な方法はエッセイを手作業でコーディングすることですが、ハンドコーディングは労働集約的であり、私にとっては少し主観的であるため、これを定量的に行いたいと思います味。無料の応答データを定量的に分析する方法についての調査中に、トピックモデリング（またはLatent Dirichlet Allocation、またはLDA）と呼ばれるアプローチを見つけました。トピックモデリングでは、データの単語の表現（用語ドキュメントマトリックス）を使用し、単語の共起に関する情報を使用して、データの潜在的なトピックを抽出します。このアプローチは私のアプリケーションに最適のようです。残念ながら、トピックモデリングをデータに適用すると、2つの問題が見つかりました。トピックモデリングによって明らかにされたトピックは、解釈が難しい場合があります別のランダムシードを使用してトピックモデルを再実行すると、トピックが劇的に変化するように見える特に問題2は私に関係しています。したがって、2つの関連する質問があります。解釈可能性と安定性のためにモデル適合手順を最適化するために、LDA手順でできることはありますか？個人的に、私は、最も低いパープレキシティおよび/または最高のモデル適合性を持つモデルを見つけることについてあまり気にしません-私は主にこの手順を使用して、この研究の参加者がエッセイで書いたものを理解し、特徴づけるのを助けたいです。ただし、結果がランダムシードのアーティファクトになりたくないのは確かです。上記の質問に関連して、LDAを実行するために必要なデータ量の基準はありますか？この方法を使用した私が見たほとんどの論文は、大きなコーパスを分析します（たとえば、過去20年間のすべてのScience論文のアーカイブ）が、実験データを使用しているため、ドキュメントのコーパスははるかに小さくなります。手を汚したい人のために、ここにエッセイデータを投稿しました。使用しているRコードを以下に貼り付けました。 require(tm) require(topicmodels) # Create a corpus from the essay c <- Corpus(DataframeSource(essays)) inspect(c) # Remove punctuation and put the words in lower case c <- tm_map(c, removePunctuation) c <- tm_map(c, tolower) # Create a DocumentTermMatrix. The stopwords are the …

23 machine-learning model-selection small-sample topic-models dirichlet-process

2

LDAハイパーパラメーターの自然な解釈

誰かがLDAハイパーパラメーターの自然な解釈を説明できますか？ALPHAおよびBETAは、それぞれ（文書ごと）トピックおよび（トピックごと）単語分布のディリクレ分布のパラメーターです。しかし、これらのハイパーパラメーターの大きな値と小さな値を選択することの意味を誰かが説明できますか？それは、文書内のトピックの疎さの観点から事前の信念を置き、単語の観点からトピックの相互排他性を置くことを意味しますか？この質問は潜在的なディリクレ配分についてですが、すぐ下のBGReeneによるコメントは線形判別分析に言及しており、紛らわしいことにLDAと省略されています。

21 interpretation prior topic-models hyperparameter

2

Latent Dirichlet Allocationでホールドアウトの困惑度を計算する方法は？

Latent Dirichlet Allocation（LDA）を行う際に、ホールドアウトサンプルの困惑度を計算する方法について混乱しています。トピックに関する論文はそれ以上に簡単で、私は明らかな何かを見逃していると思うようにしています... 複雑さは、LDAのパフォーマンスの良い尺度と見なされます。アイデアは、ホールドアウトサンプルを保持し、残りのデータでLDAをトレーニングし、ホールドアウトの複雑さを計算することです。困惑は次の式で与えられます。 p e r （Dt e s t）= e x p { − ∑Md= 1ログp （wd）∑Md= 1Nd}per（Dtest）=eバツp{−∑d=1Mログ⁡p（wd）∑d=1MNd}per(D_{test})=exp\{-\frac{\sum_{d=1}^{M}\log p(\mathbb{w}_d)}{\sum_{d=1}^{M}N_d}\} （大規模画像データベースでの画像検索、Horster et alから引用）ここで、は（おそらくテストサンプルの）ドキュメントの数であり、はドキュメントの単語を表し、はドキュメントの単語の数をます。MMMwdwd\mathbb{w}_ddddNdNdN_dddd を賢明に計算する方法は、保留されたドキュメントのトピック混合物がないため、私には明確ではありません。理想的には、可能なすべてのトピック混合物について事前にディリクレを介して統合し、学習したトピック多項式を使用します。ただし、この積分を計算するのは簡単なことではありません。p （wd）p（wd）p(\mathbb{w}_d) または、（学習したトピックが与えられた）各保留文書の最適なトピック混合を学習し、これを使用して困惑を計算することもできます。これは実行可能ですが、Horter et alやBlei et alなどの論文が示唆しているように些細なことではなく、結果が上記の理想的な場合と同等であることはすぐにはわかりません。

18 text-mining topic-models

1

潜在ディリクレ割り当てを使用したトピック予測

ドキュメントのコーパスでLDAを使用し、いくつかのトピックを見つけました。コードの出力は、確率を含む2つの行列です。1つのdoc-topic確率と他のword-topic確率。しかし、実際には、これらの結果を使用して新しいドキュメントのトピックを予測する方法がわかりません。ギブスサンプリングを使用しています。誰もが方法を知っていますか？ありがとう

17 text-mining topic-models

3

短いドキュメントのトピックモデル

この質問に触発されて、私は非常に短いテキストの大規模なコレクションのトピックモデルで何か作業が行われたかどうか疑問に思っています。私の直感では、Twitterはそのようなモデルの自然なインスピレーションになるはずです。ただし、いくつかの限られた実験から、標準のトピックモデル（LDAなど）は、この種のデータでは非常にパフォーマンスが低いようです。誰もがこの分野で行われた仕事を知っていますか？このホワイトペーパーでは、LDAをTwitterに適用する方法について説明しますが、ショートドキュメントのコンテキストでより優れたパフォーマンスを発揮する他のアルゴリズムがあるかどうかに興味があります。

14 references text-mining topic-models natural-language

1

クラスター化にLDA over GMMを使用する場合

168次元のユーザーアクティビティを含むデータセットがあり、教師なし学習を使用してクラスターを抽出します。潜在的ディリクレ配分（LDA）でトピックモデリングアプローチを使用するか、ベイジアンアプローチに近いガウス混合モデル（GMM）を使用するかは、私には明らかではありません。その点で私は2つの関連する質問があります： 2つの方法の主な違いは何ですか？私は2つのモデルの基本を知っていますが、実際に一方が他方とどう違うのかについて知りたいです。問題/データの何かが、1つのモデルの方が適しているかどうかを教えてくれますか？両方の方法をデータに適用した場合、結果を比較してどちらの方法が優れているかを確認するにはどうすればよいですか？更新 168人のユーザーアクティビティ変数はアクティビティのカウントであり、正の離散値を保持します。そこには、最大値はありませんが、変数の約90％が間隔の値を達成する。[0,3][0,3][0,3] これらのアクティビティ変数のすべてを、それがゼロか非ゼロかを表すバイナリ変数として単純にモデル化することは理にかなっているかもしれませんが、問題を特定するのに十分な知識はまだありません。私たちが探している主なものは、ユーザーアクティビティのさまざまなクラスターへの洞察です。

8 clustering gaussian-mixture unsupervised-learning topic-models

1

LDAによって生成されたトピックワードを使用してドキュメントを表す

各ドキュメントを一連の機能として表すことにより、ドキュメントの分類を行いたいと思います。私は多くの方法があることを知っています：BOW、TFIDF、... Latent Dirichlet Allocation（LDA）を使用して、各単一ドキュメントのトピックキーワードを抽出したいと考えています。ドキュメントはこれらのトピックワードで表されます。しかし、私の意見では、LDAは通常、A BUNCH OFドキュメントによって共有されるトピックの単語を抽出するために使用されるため、それが妥当かどうかはわかりません。 LDAを使用して、単一のドキュメントのトピックを検出できますか？

8 feature-selection text-mining topic-models latent-dirichlet-alloc

タグ付けされた質問 「topic-models」

タグ付けされた質問「topic-models」