名前付きエンティティの認識のためのWord2Vec


25

Googleのword2vec実装を使用して、名前付きエンティティ認識システムを構築したいと考えています。構造を逆伝播する再帰的ニューラルネットは、名前付きエンティティ認識タスクに適していると聞きましたが、そのタイプのモデルに適した実装または適切なチュートリアルを見つけることができませんでした。非定型コーパスを使用しているため、NLTKなどの標準NERツールのパフォーマンスは非常に低く、独自のシステムをトレーニングする必要があるようです。

要するに、この種の問題に利用できるリソースは何ですか?利用可能な標準的な再帰ニューラルネットの実装はありますか?


コーパスでスタンフォードNERのトレーニングを試みましたか?こちらにチュートリアルがあります
エムレ14年

私はしていない-それがどのように運命を確認するためにそれを行ってください。
マディソン14年

ただし、比較的小さいラベル付きデータセットにアクセスでき、手元にあるラベルなしデータを最大限に活用する必要があるため、word2vec機能などを使用したいと思います。
マディソン14年

回答:



7

最近の2つの論文では、CharWNNと呼ばれるディープラーニングアーキテクチャを使用して、この問題に対処しています。CharWNNは、英語のコーパスでの品詞(POS)のタグ付けに関する最新の結果(手作りの機能なし)を取得するために最初に使用されました。

第二紙同じ著者によっては、ワードアート結果の見かけの状態で、10の名前付きエンティティ・クラスに属しているかどうかを予測するために同じ(または類似の)アーキテクチャを使用します。


面白い。これを共有してくれてありがとう。なぜ彼らは英語のコーパスでこのアプローチをテストしなかったのだろうか。
MaticDiba

3

http://deeplearning4j.org/word2vec.htmlを試してください。これには、NERおよび他のNLPタスクにBag of Wordsの代わりに使用されるWord2Vecの実装があります。


1
word2vec実装を見つけるのに問題はありませんでしたが、使用する再帰的なネットを見つけることができませんでした。
マディソン14

リンクはもうアクティブではありません。可能であれば、新しい作業リンクを親切に共有してください
Amandeep

1

以下は、ほとんど監視なしのword2vec中心のアプローチを採用するNERの単語ベクトルの使用方法に関するいくつかのアイデアです。

  1. 単語ベクトルのセット(トレーニングしたもの、またはGoogleNews-vectors-negative300.binのような既製のもの)が与えられたら、ベクトル空間でクラスターを検出します。これらのクラスターは、基本的にはさまざまな名前のない概念の定義です。
  2. 最小限の監督で、名前のないクラスターをマップして変換して人間の知識に一致させることができるため、既知の単語ベクトルと名前のないコンセプトに基づいて名前の付いた概念を作成できます。たとえば、メソッドfindCluster(['joy', 'surprise', 'disgust', 'trust', 'fear', 'sadness', 'anger', 'anticipation'])は、主に感情に関連する数百の単語を含むリストを返す場合があります。このリストに「感情」という名前を付けると、ベクトル空間に基づいて定義された名前付きの概念「感情」があります。
  3. また、ベクトル演算を実行して、指定された2つの概念の中間概念を見つけることもできます。たとえば、ベクトル演算では、「驚き」と「嫌悪」という2つの単語が与えられた場合、次の2つが見つかります。概念間の関係を構築します。
  4. 上記を繰り返して、平日、すべての感情、幸せな感情、乗り物など、さまざまなタイプの名前付きconcptsを構築できます。
  5. 名前付き概念のレイヤーを構築したら、名前付き概念で補強されたテキストコーパスでRNNをトレーニングできるため、「茶色のキツネのジャンプ」は「{色} {動物} {アクション}」などにもなります。このようにして、RNNは教師なしで初歩的な文法を学習できるはずです。
  6. 上記から十分に強力な文法を構築している場合は、NERタスクの一部にそれを適用できるはずです。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.