テキスト分類とトピックモデルの違いは何ですか?


20

機械学習におけるクラスタリングと分類の違いは知っていますが、ドキュメントのテキスト分類とトピックモデリングの違いはわかりません。ドキュメントに対してトピックモデリングを使用してトピックを特定できますか?分類方法を使用して、これらのドキュメント内のテキストを分類できますか?

回答:


28

テキスト分類

ラベルが添付されたドキュメントをたくさんお渡しします。文書の内容にその言葉に基づいてこれらのラベルが付けられていると思う理由を学ぶようお願いします。次に、新しいドキュメントを提供し、各ドキュメントのラベルをどうするかを尋ねます。ラベルはあなたにとってではなく、私にとって意味があります。

トピックモデリング

ラベルなしで大量のドキュメントを提供します。それぞれが「約」であるいくつかのトピックを特定することにより、文書にその言葉が含まれている理由を説明してください。各ドキュメントにどれだけ含まれているかを伝えることでトピックを教えてください。トピックがある場合、その「意味」を決定します。

「1つのトピックを特定する」または「テキストを分類する」ことで、自分の内容を明確にする必要があります。


10

しかし、文書内のテキスト分類とトピックモデルの違いはわかりません

Text Classificationは教師あり学習の形式であるため、可能なクラスのセットは事前に既知/定義されており、変更されません。

Topic Modelingは、教師なし学習の形式(クラスタリングに似ています)であるため、可能なトピックのセットは不明なアプリオリです。これらは、トピックモデルの生成の一部として定義されます。LDAのような非決定的アルゴリズムを使用すると、アルゴリズムを実行するたびに異なるトピックが表示されます。

Text classification多くの場合、相互に排他的なクラスが含まれます。これらをバケットと考えてください。
ただし、その必要はありません。ラベル付き入力データの種類が適切であれば、相互に排他的な一連のバイナリ分類子を設定できます。

Topic modeling一般に、相互に排他的ではありません。同じドキュメントの確率分布を多くのトピックに分散させることができます。さらに、階層的なトピックモデリング方法もあります。

また、ドキュメントのトピックモデルを使用して、後で1つのトピックを識別することはできますか?分類を使用して、このドキュメント内のテキストを分類できますか?

トピックモデリングアルゴリズムによって1つのトピックに割り当てられたすべてのドキュメントを取得し、そのコレクションに分類子を適用できるかどうかを確認する場合は、確かにそれを実行できます。

しかし、それが意味をなすかどうかはわかりません。少なくとも、コレクションに文書を含めるトピック確率分布のしきい値(通常は0.05〜0.1)を選択する必要があります。

ユースケースについて詳しく説明していただけますか?

ちなみに、Java用のMALLETライブラリを使用したトピックモデリングに関する優れたチュートリアルは、トピックモデリングとMALLETの概要を参照してください。


4

通常、トピックモデルは教師なしです。「教師付きトピックモデル」もあります。しかし、それでもクラス内でトピックをモデル化しようとします

たとえば、「フットボール」というクラスがあるかもしれませんが、このクラス内には特定の試合やチームに関連するトピックがあるかもしれません。

トピックの課題は、時間とともに変化することです。上記の一致の例を検討してください。そのようなトピックが出現し、再び消えることがあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.