テキスト分類子トレーニングデータセットを提案する


9

テキスト分類子のトレーニングに使用できる自由に利用できるデータセットはどれですか?

私たちは、ユーザーに最も関連するコンテンツを推奨することでユーザーエンゲージメントを強化しようとしているため、事前定義された単語のバッグに基づいてコンテンツを分類した場合、すでに分類されたランダムな数の投稿に関するフィードバックを得ることで、ユーザーに魅力的なコンテンツを推奨できると考えました前。

この情報を使用して、これらのクラスでラベル付けされたパルスを彼に推奨できます。しかし、コンテンツに関連しない定義済みの単語のバッグを使用した場合、特徴ベクトルはゼロでいっぱいになることもわかりました。また、カテゴリはコンテンツに関連していない可能性があります。これらの理由により、コンテンツを分類せずにクラスタリングする別のソリューションを試しました。

ありがとう:)


1
誰かがデータセットを推奨する前に、問題の詳細が必要だと思います。
Neil Slater 2014年

3
何のために?スパムフィルタリング?感情分析?明確な目的がなければ、データセットを提案することは非常に困難です。
lsdr 2014年

@lsdr回答を見ると、質問は必ずしも詳細を必要としないようです。
Amir Ali Akbari 14年

@AmirAliAkbari彼らは編集後に来たと思います。とにかく、私は投票を撤回しました。
ルーベンス2014年

この質問のより適切な場所は、opendata.stackexchange.comです
sheldonkreger

回答:


14

テキスト分類の標準データセットには、20-Newsグループ、Reuters(8および52クラス)およびWebKbがあります。あなたはここでそれらすべてを見つけることができます。


ありがとう:)、以前に訪問したことがあるが、分類が弱
すぎて


5

ここで使用できるように、UC Irvineによって無料で作成されたデータセットがたくさんあります。それらのデータセットの中には、あなたの仕事であなたを助けるかもしれない数十のテキストのデータセットがあります。

これらは一種の一般的なデータセットであるため、目的によっては、モデルをトレーニングするための唯一のデータとして使用しないでください。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.