非公式テキスト上の名前付きエンティティ認識のデータセット


18

現在、ラベル付きデータセットを検索して、非公式テキスト(ツイートに似たもの)から名前付きエンティティを抽出するモデルをトレーニングしています。データセットのドキュメントには大文字と文法が欠けていることが多いため、今日の最先端のエンティティ認識システムの多くがそうであるニュース記事やジャーナルエントリよりも少し「非公式」なドメイン外データを探しています。訓練を受けた。

推奨事項はありますか?これまでのところ、私はここで公開されているツイッターから5万トークンを見つけることができまし


2
尋ねるオススメopendata.stackexchange.com
エア

@マディソン5月。データセットを見つけましたか?似たようなものを探しています。ありがとう。
ahoffer

私は、U。Washingtonのtwitter nerコーパス(元の投稿にリンクされています)で間に合わせる必要がありました。
マディソン14


関連する優れた注釈付き英語コーパスを取得しましたか?
アキウタナンダサフー

回答:


6

私が理解しているように、これらはサンプルデータセットで探しているプロパティです。

  1. テキストデータ
  2. 略式、つまりタイプミス、スラング、基本的にはプロが編集していないもの
  3. Twitter以外の何か(私はあなたを非難しません、Twitterはテキストマイニングで便利でありながら使い古されたサンプルデータソースです)

推奨事項は次のとおりです。

  1. SpamAssassinコーパスからの電子メール-「ハム」(非スパム)とスパムデータセットの両方が利用可能であることに注意してください
  2. Sina WeiboユーザーのマイクロブログからスクレイピングれたUCIのmicroblogPCUデータセット -生のテキストデータは中国語と英語が混在していることに注意してください(中国語の機械翻訳を実行したり、英語のみにフィルターをかけたり、使用したりできます)そのまま)
  3. Amazon CommerceがUCIのデータセットをレビュー
  4. bag-o-wordsデータセット内で、エンロンのメールを使用してみてください
  5. 二十ニュースグループのデータセット
  6. SMSスパムのこの素晴らしいコレクション
  7. インターネットから独自のテキストデータをいつでもスクレイプ(抽出)できます。私はあなたが使用しているどの言語や統計パッケージわからないんだけど、XPathベースのパッケージはR(で使用可能なrvestscrapeRこれを達成するために、など)とPython

1
ただし、これらのデータセットには名前付きエンティティの注釈が付いていますか?それがOPが探していたものだと思います。
フィル氏

3

これらを確認してください:

情報抽出用のテストドメインのリポジトリ:http : //www.isi.edu/info-agents/RISE/repository.html

DBpedia:http ://wiki.dbpedia.org/Downloads32 (ミラー

更新されたリンク:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set


1
いずれも機能していないため、これらのリンクを更新してください。
フィル氏

0

私が使用したソースのいくつか:

これらのデータセットはあなたの仕事に大いに役立つと思います

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.