NERの教師なし機能学習


11

私はCRFアルゴリズムを使用してNERシステムを実装し、非常に良い結果が得られた手作りの機能を使用しました。事は私がPOSタグや補題を含む多くの異なる機能を使用したということです。

今度は、異なる言語で同じNERを作成したいと思います。ここでの問題は、POSタグと補題を使用できないことです。ディープラーニングと教師なし機能学習に関する記事を読み始めました。

私の質問は:

CRFアルゴリズムによる教師なし特徴学習の方法を使用することは可能ですか?誰かがこれを試して、良い結果を得ましたか?この問題に関する記事やチュートリアルはありますか?

私はまだこの機能作成方法を完全に理解していないので、機能しないものに多くの時間を費やしたくありません。だからどんな情報も本当に役立つでしょう。ディープラーニングに基づいてNERシステム全体を作成することは、今のところ少し重要です。

回答:


5

はい、教師なし学習をCRFモデルと組み合わせることが完全に可能です。特に、CRFへの入力としてword2vec機能を使用する可能性を探ることをお勧めします。

Word2vecは、特定のコンテキストに適切な単語とランダムに選択された単語を区別するようにをトレーニングします。モデルの選択した重みは、特定の単語の密なベクトル表現として解釈できます。

これらの密集したベクトルには、意味的または構文的に類似している単語が類似のベクトル表現を持っているという魅力的な特性があります。基本的なベクトル演算は、単語間のいくつかの興味深い学習関係を明らかにします。
たとえば、vector( "パリ")-vector( "フランス")+ vector( "イタリア")は、vector( "ローマ")とよく似たベクトルを生成します。

大まかに言えば、word2vec表現はLDAまたはLSA表現に似ていると考えることができます。これは、疎な入力ベクトルを、単語の類似性情報を含む密な出力ベクトルに変換できるという意味です。

さらに言えば、LDAとLSAは教師なし機能学習の有効なオプションでもあります。どちらも単語を「トピック」の組み合わせとして表現し、高密度の単語表現を出力しようとします。

英語のテキストの場合、Googleは1,000億ワードの巨大なGoogleニュースデータセットで事前トレーニングされたword2vecモデルを配布しますが、他の言語の場合は独自のモデルをトレーニングする必要があります。


こんにちは、お返事ありがとうございます。もう1つ質問があります。word2vecアルゴリズムから返される単語ベクトルには浮動小数点値があるため、big and biggerなどの単語にはベクトル空間で近いベクトルがありますが、ベクトルの値は完全に異なる場合があります。たとえば、big = [0.1、0.2、0,3]およびbigger = [0.11、0.21、0.31]です。このアルゴリズムはそれらを同じようなものとして扱わないので、CRFアルゴリズムにとってそれは問題ではありませんか?CRFでこの単語ベクトルを使用する前に行う必要がある追加の処理はありますか?私の質問が十分に明確であることを望みます。
MaticDiba 2014

4

この2014年論文GitHubの)、著者らは、クラスタの埋め込みを埋め込むbinerized、緻密埋め込み含む、CRFベースNERシステムにおけるワード埋め込みを組み込んだ複数の戦略、および新規な比較プロトタイプ方法。vladによって提案されているように密なベクトルを直接使用するのが最も簡単な方法ですが、複数の評価では最も効果的ではありません。

私は、ドメイン固有のNERプロジェクトにプロトタイプのアイデアを実装しました。


3

私は5か月遅れていますが、CRFSuiteを使用すると、これらの浮動小数点機能を文字列としてではなく、数値として実際に使用できます。そのためには、各ディメンションに一意のラベルを作成し、「:」に続けて値を追加する必要があります。

たとえば、「ジャングル」という単語は5つの次元で表されます:0.1 0.4 0.8 0.2 0.9

次に、CRFSuiteはその単語と機能を次のように扱います。

ラベルf1:0.1 f2:0.4 f3:0.8 f4:0.2 f5:0.9

もちろん、「LABEL」を実際の文字列に置き換え、すべてのスペースをタブで区切ります(これはCRFSuiteの形式です)。

他のパッケージについてはわかりません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.