ヘルスケアドメインのテキストデータが40000行あります。データには、テキスト(2〜5文)の1つの列と、そのカテゴリの1つの列があります。それを300のカテゴリーに分類したい。一部のカテゴリは独立していますが、いくらか関連しています。カテゴリ間のデータの分布も均一ではありません。つまり、一部のカテゴリ(そのうちの約40)には、2〜3行程度のデータしかありません。
各クラス/カテゴリのログ確率を添付しています。(またはクラスの分布)ここに。
2
詳細情報が必要です。カテゴリー間の関係は何ですか?カテゴリーは相互に排他的ですか?カテゴリーの重複はありますか?
—
ライアンJ.スミス
データサイエンスへようこそ!現在、あなたの質問は非常に質が低いです。十分に説明された質問をしない限り、質の高い回答は期待できません。詳細情報を提供してください(データ、背景、プログラミング言語、研究されたアプローチなどのより良い説明)。
—
Wojciech Walczak