非公式テキスト上の名前付きエンティティ認識のデータセット

18

現在、ラベル付きデータセットを検索して、非公式テキスト（ツイートに似たもの）から名前付きエンティティを抽出するモデルをトレーニングしています。データセットのドキュメントには大文字と文法が欠けていることが多いため、今日の最先端のエンティティ認識システムの多くがそうであるニュース記事やジャーナルエントリよりも少し「非公式」なドメイン外データを探しています。訓練を受けた。

推奨事項はありますか？これまでのところ、私はここで公開されているツイッターから5万トークンを見つけることができました。

dataset nlp

— マディソンメイ
ソース

2

尋ねるオススメopendata.stackexchange.com

— エア

@マディソン5月。データセットを見つけましたか？似たようなものを探しています。ありがとう。

— ahoffer

私は、U。Washingtonのtwitter nerコーパス（元の投稿にリンクされています）で間に合わせる必要がありました。

— マディソン14

FYI タグ付きテキストのコーパス（英語の新聞またはタグ付きテキスト）

— フランクデルノンクール

関連する優れた注釈付き英語コーパスを取得しましたか？

— アキウタナンダサフー

6

私が理解しているように、これらはサンプルデータセットで探しているプロパティです。

テキストデータ
略式、つまりタイプミス、スラング、基本的にはプロが編集していないもの
Twitter以外の何か（私はあなたを非難しません、Twitterはテキストマイニングで便利でありながら使い古されたサンプルデータソースです）

推奨事項は次のとおりです。

SpamAssassinコーパスからの電子メール-「ハム」（非スパム）とスパムデータセットの両方が利用可能であることに注意してください
Sina WeiboユーザーのマイクロブログからスクレイピングされたUCIのmicroblogPCUデータセット -生のテキストデータは中国語と英語が混在していることに注意してください（中国語の機械翻訳を実行したり、英語のみにフィルターをかけたり、使用したりできます）そのまま）
Amazon CommerceがUCIのデータセットをレビュー
bag-o-wordsデータセット内で、エンロンのメールを使用してみてください
二十ニュースグループのデータセット
SMSスパムのこの素晴らしいコレクション
インターネットから独自のテキストデータをいつでもスクレイプ（抽出）できます。私はあなたが使用しているどの言語や統計パッケージわからないんだけど、XPathベースのパッケージはR（で使用可能なrvest、scrapeRこれを達成するために、など）とPython

— ハック-R
ソース

1

ただし、これらのデータセットには名前付きエンティティの注釈が付いていますか？それがOPが探していたものだと思います。

— フィル氏

3

これらを確認してください：

情報抽出用のテストドメインのリポジトリ：http : //www.isi.edu/info-agents/RISE/repository.html

DBpedia：http ://wiki.dbpedia.org/Downloads32 （ミラー）

更新されたリンク：

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set

— スリージス
ソース

1

いずれも機能していないため、これらのリンクを更新してください。

— フィル氏

0

私が使用したソースのいくつか：

古典的なCONLLコーパス：CONLLデータセット
試してみる価値のある1つのKaggleソース：Kaggle NER Corpus
OntoNotesリリース5.0：Onto Notes
バイオエンティティ認識タスク：バイオエンティティ
別の電子メール関連データセット：Enron電子メールデータセット

これらのデータセットはあなたの仕事に大いに役立つと思います

— ギャン・ランジャン
ソース