タグ付けされた質問 「topic-model」

4
潜在ディリクレ配分対階層ディリクレ過程
潜在ディリクレ割り当て(LDA)と階層ディリクレプロセス(HDP)は、両方ともトピックモデリングプロセスです。主な違いは、LDAではトピックの数を指定する必要がありますが、HDPでは指定しないことです。どうしてこんなことに?そして、両方のトピックモデリング方法の違い、長所、短所は何ですか?
49 nlp  topic-model  lda 

3
テキスト分類とトピックモデルの違いは何ですか?
機械学習におけるクラスタリングと分類の違いは知っていますが、ドキュメントのテキスト分類とトピックモデリングの違いはわかりません。ドキュメントに対してトピックモデリングを使用してトピックを特定できますか?分類方法を使用して、これらのドキュメント内のテキストを分類できますか?

2
潜在的ディリクレ配分では、アルファおよびベータハイパーパラメーターは何に貢献しますか?
LDAには2つのハイパーパラメーターがあり、それらを調整すると、誘発されるトピックが変わります。 アルファおよびベータハイパーパラメーターはLDAにどのように貢献しますか? いずれかのハイパーパラメーターが増減すると、トピックはどのように変わりますか? なぜパラメーターだけでなくハイパーパラメーターなのですか?

1
NLP-「なぜ」ストップワードなのですか?
トピックモデリングを実行する前にストップワードを削除しようとしています。いくつかの否定語(ない、決して、決してない、など)は通常ストップワードと見なされることに気付きました。たとえば、NLTK、spacy、sklearnのストップワードリストには「not」が含まれています。ただし、これらの文から「not」を削除すると、重要な意味が失われ、トピックモデリングやセンチメント分析にとって正確ではなくなります。 1). StackOverflow is helpful => StackOverflow helpful 2). StackOverflow is not helpful => StackOverflow helpful これらの否定語が通常ストップワードであると考えられる理由を説明してください。

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
トピックモデルとLDAに関するチュートリアル
トピックモデルとLDAに関する優れたチュートリアル(高速で簡単)があり、直感的にいくつかのパラメーターの設定方法、それらの意味、そして可能であれば実際の例を教えているかどうかを知りたいと思います。

1
トピックモデルを使用した2つのコーパスの比較
トピックモデリングを使用して2つのコーパス(2つの異なるテキストのコレクション)を比較したい。2つのコレクションでモデルを個別にトレーニングし、頻繁な単語に基づいて類似トピックを手動で一致させました。 2つのコーパスでトピックを比較し、それらの類似性を測定する体系的な方法があるかどうか疑問に思っていました。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.