テキスト分類子トレーニングデータセットを提案する

9

テキスト分類子のトレーニングに使用できる自由に利用できるデータセットはどれですか？

私たちは、ユーザーに最も関連するコンテンツを推奨することでユーザーエンゲージメントを強化しようとしているため、事前定義された単語のバッグに基づいてコンテンツを分類した場合、すでに分類されたランダムな数の投稿に関するフィードバックを得ることで、ユーザーに魅力的なコンテンツを推奨できると考えました前。

この情報を使用して、これらのクラスでラベル付けされたパルスを彼に推奨できます。しかし、コンテンツに関連しない定義済みの単語のバッグを使用した場合、特徴ベクトルはゼロでいっぱいになることもわかりました。また、カテゴリはコンテンツに関連していない可能性があります。これらの理由により、コンテンツを分類せずにクラスタリングする別のソリューションを試しました。

ありがとう:)

— アブデルマウラ
ソース

1

誰かがデータセットを推奨する前に、問題の詳細が必要だと思います。

— Neil Slater 2014年

3

何のために？スパムフィルタリング？感情分析？明確な目的がなければ、データセットを提案することは非常に困難です。

— lsdr 2014年

@lsdr回答を見ると、質問は必ずしも詳細を必要としないようです。

— Amir Ali Akbari 14年

@AmirAliAkbari彼らは編集後に来たと思います。とにかく、私は投票を撤回しました。

— ルーベンス2014年

この質問のより適切な場所は、opendata.stackexchange.comです

— sheldonkreger

14

テキスト分類の標準データセットには、20-Newsグループ、Reuters（8および52クラス）およびWebKbがあります。あなたはここでそれらすべてを見つけることができます。

— Debasis
ソース

ありがとう:)、以前に訪問したことがあるが、分類が弱

— すぎて

7

テキストの分類研究に最も広く使用されているテストコレクションの1つ（下のリンク）。何度も使っています。あなたの探検をお楽しみください:)

http://www.daviddlewis.com/resources/testcollections/reuters21578/ または http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

— ハマム
ソース

5

ここで使用できるように、UC Irvineによって無料で作成されたデータセットがたくさんあります。それらのデータセットの中には、あなたの仕事であなたを助けるかもしれない数十のテキストのデータセットがあります。

これらは一種の一般的なデータセットであるため、目的によっては、モデルをトレーニングするための唯一のデータとして使用しないでください。

— lsdr
ソース

1

上記の提案とは別に、モデルをテストするためのベンチマークと一緒にさまざまなデータセットを含む非常に便利なpdf- 分類およびクラスタリングタスクのベンチマークテキストコレクションがあります。これには、20ngコレクション、ロイター、および上記の推奨データセットの多くが含まれます。お役に立てば幸いです。

— ヒマバルシャ
ソース