トピックモデルを使用した2つのコーパスの比較

トピックモデリングを使用して2つのコーパス（2つの異なるテキストのコレクション）を比較したい。2つのコレクションでモデルを個別にトレーニングし、頻繁な単語に基づいて類似トピックを手動で一致させました。

2つのコーパスでトピックを比較し、それらの類似性を測定する体系的な方法があるかどうか疑問に思っていました。

text-mining topic-model

— サギ
ソース

私の目には、これは有効なアプローチではありません。

コーパスには1つの固有のトピックモデル（トピックの数やトピックモデリングのアルゴリズムなどのいくつかのパラメーターがある場合）はありません。異なるランダムシードを使用した異なる実行では、同じコーパスに対して異なるトピックモデルが提供されます。

したがって、比較は特定のトピックモデルの比較に集約されますが、コーパスの比較には集約されません。

妥当性がより優れたアプローチの1つは、両方のコーパスを1つのスーパーコーパスに結合し、そのトピックモデルを作成して、元のコーパス1と2によって形成されたサブコーパスに関してトピックの分布を調査することです。

すばらしい答えをありがとう。「元のコーパス1と2によって形成されたサブコーパスに関するトピックの分布を調査する」とはどういう意味ですか？さらに詳しく説明してもらえますか？

— スミス

@スミス：トピックモデルをやったことはありますか？コーパス内の各ドキュメントについてトピック構成を示すトピックモデルからdocument-topic-matrixを取得する必要があります。コーパスの作成元であるサブコーパスに従ってこれらのデータを集約し、それを入手します。