NLP-Gazetteerはチートですか?


16

NLPには、Gazetteer注釈の作成に非常に役立つ概念があります。私が理解する限りでは:

地名辞典は、都市、組織、曜日などのエンティティの名前を含むリストのセットで構成されます。これらのリストは、名前付きエンティティの認識タスクなど、テキストでこれらの名前の出現を見つけるために使用されます。

したがって、本質的にはルックアップです。この種のチートではありませんか?Gazetteer名前付きエンティティを検出するためにaを使用する場合、それほど多くは行われませんNatural Language Processing。理想的には、NLPテクニックを使用して名前付きエンティティを検出したいと思います。それ以外の場合、正規表現パターンマッチャーよりも優れていますか?


2
辞書以外のルックアップソリューションを使用するように特別に設計されていない限り、私はそれを不正行為とは呼びません。また、これを従来のNLPとは呼びませんが、問題の簡単な解決策から得られる実質的な走行距離を見逃してはなりません。
カイル。

1
名前付きエンティティ認識エンジンのトレーニングに使用できます。あなたの地名辞典は、そのコーパスにない実体について何をしようとしていますか?
エマー

posタグと名詞チャンクを正しく使用することで、地名辞典が不要になることを望んでいました。それは可能ですか?
AbtPst

2
業界では不正行為はありません。:-)しかし、とにかく、「一般的なアプローチ」が必要な場合は、手動注釈付きデータ、つまりシードから始めて、NEが現れるコンテキストを学習し、さらにNEを学習する必要があります。
アダムBittlingmayer

回答:


15

Gazetteerまたは意図的に固定されたサイズの機能のその他のオプションは、固定コーパスのNER、POSタグ付けなど、有限サイズの問題がある場合、学術論文で非常に一般的なアプローチのようです。使用する唯一の機能がGazetteerマッチングである場合を除き、不正行為とは考えません。

ただし、トレーニング中に辞書に依存する任意の種類のNLPモデルをトレーニングすると、関心のあるすべてのオブジェクトを地名辞典に含めることができない場合(およびその理由そのモデルが必要ですか?)訓練されたモデルはある時点で機能に依存し、他の機能が弱すぎるか記述的でない場合、新しい関心のあるオブジェクトが認識されないためです。

モデルでGazetteerを使用する場合は、その機能にモデル自体のバランスをとるカウンター機能があることを確認する必要があります。そうすることで、単純な辞書の一致だけがポジティブクラスの機能にならないようにします(さらに重要なことに、Gazetteerは肯定的な例だけでなく、否定的な例にも一致します)。

たとえば、すべての人の名前の無制限のバリエーションの完全なセットがあり、一般的な人のNERは無関係であると仮定しますが、テキストで言及されているオブジェクトが歌うことができるかどうかを判断しようとします。Person Gazetteerに含める機能を使用すると、多くの誤検知が発生します。次に、「動詞を歌う対象」という動詞中心の機能を追加します。これはおそらく、鳥のようなあらゆる種類のオブジェクト、おなかがすいているおなか、考えている酔っ払いの仲間から偽陽性になるでしょう彼は歌うことができます(しかし、正直に言って、彼はできません)-しかし、その動詞中心の機能は、動物や他のオブジェクトではなく、人に肯定的なクラスの「歌手」を割り当てるために、個人の地名辞典とバランスを取ります。しかし、それは酔っ払ったパフォーマーのケースを解決しません。


4

エンティティのリストを使用することには、いくつかの欠点があります。

  • リストは閉じられています
  • リストは状況依存ではありません。「ホワイトハウス」と「ホワイトハウス」を区別するには、コンテキストが必要です。
  • リストの作成には多くの労力が必要
  • リストにはエラーも含まれる場合があります。
  • 不正行為のように感じます(またはリストではNLPの洞察は使用されていません)。

これらの欠点に対処するには、@ emreが推奨する方向に沿って進み、分類器を学習するためにリストを使用します。

たとえば、エンティティの近くでトークンを使用し、「私はXに住んでいます」は場所の指標であり、「私はXと話しました」は人の指標であるというルールを学習できます。ルールのヒット分だけリストを増やし、新しいリストを使用してより多くのルールを学習することで、このゲームを数ラウンドプレイできます。

この学習ではデータにノイズが混入するため、ほとんどの場合、学習は非常に単純である必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.