NLTKのNERに関するヘルプ


12

Pythonを使用してしばらくの間NLTKで作業しています。私が直面している問題は、私のカスタムデータを使用してNLTKでNERをトレーニングするのに役立つものがないということです。彼らはMaxEntを使用し、ACEコーパスでトレーニングしました。私はウェブでたくさん検索しましたが、NLTKのNERのトレーニングに使用できる方法を見つけることができませんでした。

誰かがリンク/記事/ブログなどを提供してくれれば、NLTKのNERのトレーニングで使用されるトレーニングデータセットフォーマットに誘導できるので、その特定のフォーマットでデータセットを準備できます。そして、私が自分のデータのためにNLTKのNERをトレーニングするのに役立つリンク/記事/ブログなどに誘導された場合。

これは広く検索されており、回答が最も少ない質問です。NERと連携する将来の誰かにとって役立つかもしれません。


回答:


4

関連したモデル、トレーニング情報抽出を一般的に、かつ固有表現認識/解像度(NER) 、特に、中に詳細に記載されている、第7章NLTKブックは、次のURLで入手可能なオンライン:のhttp://www.nltk .org / book / ch07.html

また、私はあなたが私の便利かもしれないと考えるの関連解答クロス検証済みのサイトを。NERの関連ソースと関連トピック、およびさまざまな関連ソフトウェアツールへの多くの参照があります。


カスタムデータでNERモデルをトレーニングする方法については触れられていませんが、その方法を教えていただけますか
Hima Varsha、2016

1
@HimaVarsha私はこの分野の専門家ではありません。ただし、... NLTK NERモデルはconll2000コーパスで事前トレーニングされているため、NLTKブックには情報が含まれていないと思います。次のリソースを確認してください。1. nltk-trainer.readthedocs.io(おそらく必要なもの。おそらくIOB Chunkersトレーニングセクション)。2. sujitpal.blogspot.com/2012/11/...(だけでなく、便利かもしれません)。3. nlp.stanford.edu/software/crf-faq.shtml#a(Stanford NERソフトウェアを使用する、または使用する場合)
Aleksandr Blekh 2016

stanfordcrfの実装にはカスタムデータが必要だと思いますが、NTLK NERは事前トレーニング済みです。トレーニングIOBチャンカーはチャンクしているだけですか?それともNERをしますか?
Hima Varsha

@HimaVarshaあなたが得ているアドバイスにもっと注意を払ってください。上記のリンク#2を介して投稿を注意深く読んだ場合、そのコードはNERモデルのトレーニングと実行の両方を実行することがわかります。上記のアドバイスを超えてあなたを助けることができるとは思いません。
Aleksandr Blekh 2016

3

この記事で十分ですか? http://www.succeed-project.eu/wiki/index.php/NLTK#Input_format_for_training

コーパスがどのように見えるべきかについての説明があります。

データを機能させるには、データをIOB形式(ワードタグチャンクタグ)にする必要があります。
Eric NNP B-PERSON
はVB O
AT AT B-NP
CEO NN I-NP in
IN O
Google NNP B-ORGANIZATION


1
この回答の記事の短い要約を投稿するのが理想的です。
sheldonkreger 2015年

1

このチュートリアルは非常に役に立ちました。Python を使用して独自の名前付きエンティティ認識機能を構築するための完全なガイド彼はフローニンゲン意味銀行(GMB)コーパスを使用してNERチャンクをトレーニングします。

その後、同じ人からこのチュートリアルを確認できます。大規模なデータセットを使用したNERシステムのトレーニング scikit learnを使用して、システムのパフォーマンスを向上させます。

最後に、いくつかの本当に便利なチュートリアルがここにあります:NLTKチュートリアル この人は、多くの主題(ML、NLP、Python ...)にたくさんのチュートリアルがあるYouTubeチャンネルを持っています。

それが役に立てば幸い。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.