テキスト分類子のトレーニングに使用できる自由に利用できるデータセットはどれですか?
私たちは、ユーザーに最も関連するコンテンツを推奨することでユーザーエンゲージメントを強化しようとしているため、事前定義された単語のバッグに基づいてコンテンツを分類した場合、すでに分類されたランダムな数の投稿に関するフィードバックを得ることで、ユーザーに魅力的なコンテンツを推奨できると考えました前。
この情報を使用して、これらのクラスでラベル付けされたパルスを彼に推奨できます。しかし、コンテンツに関連しない定義済みの単語のバッグを使用した場合、特徴ベクトルはゼロでいっぱいになることもわかりました。また、カテゴリはコンテンツに関連していない可能性があります。これらの理由により、コンテンツを分類せずにクラスタリングする別のソリューションを試しました。
ありがとう:)