1
トピックモデルを使用した2つのコーパスの比較
トピックモデリングを使用して2つのコーパス(2つの異なるテキストのコレクション)を比較したい。2つのコレクションでモデルを個別にトレーニングし、頻繁な単語に基づいて類似トピックを手動で一致させました。 2つのコーパスでトピックを比較し、それらの類似性を測定する体系的な方法があるかどうか疑問に思っていました。
パターンを認識してテキスト形式のデータから情報を抽出することに関連するデータマイニングのサブセットを指します。テキストマイニングの目的は、多くの場合、特定のドキュメントを自動的にいくつかのカテゴリの1つに分類し、このパフォーマンスを動的に改善して、機械学習の例にすることです。このタイプのテキストマイニングの1つの例は、電子メールに使用されるスパムフィルターです。