テキストデータを300のカテゴリに分類するためにどの分類アルゴリズムを試すか


8

ヘルスケアドメインのテキストデータが40000行あります。データには、テキスト(2〜5文)の1つの列と、そのカテゴリの1つの列があります。それを300のカテゴリーに分類したい。一部のカテゴリは独立していますが、いくらか関連しています。カテゴリ間のデータの分布も均一ではありません。つまり、一部のカテゴリ(そのうちの約40)には、2〜3行程度のデータしかありません。

各クラス/カテゴリのログ確率を添付しています。(またはクラスの分布)ここに。 クラス事前確率の対数(データのログクラス分布)


2
詳細情報が必要です。カテゴリー間の関係は何ですか?カテゴリーは相互に排他的ですか?カテゴリーの重複はありますか?
ライアンJ.スミス

3
データサイエンスへようこそ!現在、あなたの質問は非常に質が低いです。十分に説明された質問をしない限り、質の高い回答は期待できません。詳細情報を提供してください(データ、背景、プログラミング言語、研究されたアプローチなどのより良い説明)。
Wojciech Walczak

回答:


8

一般に、このような問題の適切な開始点は、単純な単語のバッグモデルを使用した単純ベイズ(NB)分類です。自然言語処理に適用されるNBを説明するスライドをいくつか示します。このアプローチには特に凝ったものはありませんが、実装は非常に簡単であり、拡張の出発点になります。

機能と出力ラベルの間の独立性を前提とするいくつかの初期結果が見つかったら、モデルのどこが弱いのかがよくわかるでしょう。その時点以降、関連するカテゴリに割り当てられるサンプルを処理するために、いくつかの機能エンジニアリング(おそらくTF-IDF)といくつかの後処理を適用できます。


1
質問が漠然としていても、ここでの回答と参考資料に感謝します。それは私にとって本当に役に立ち、おそらく足を濡らしているだけの多くの人々にとっても同様です。ありがとう!:)
ブライアン・トッピング

おかげで、私はナイーブベイと機能エンジニアリング全般を扱い始めました。私が試すべきナイーブベイ以外の他のことはありますか?
Alok Nayak

さて、あなたはまだデータ自体やあなたがしたことの詳細についてあまり多くの詳細を提供していないので、あなたに特定の提案を与えることは非常に困難です。私が言える最良の方法は、バイグラムまたはマルコフモデル/有限状態機械を使用して、モデルと機能にいくつかの順次構造を組み込むことを検討することです。
ライアンJ.スミス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.