Genia CorpusでStanford Parserをトレーニングする方法は？

93

Stanford Parserの新しいモデルを作成するのにいくつか問題があります。

また、スタンフォードから最新バージョンをダウンロードしました：http : //nlp.stanford.edu/software/lex-parser.shtml

そして、ここでは、2つの形式のxmlとptb（Penn Treebank）のGenia Corpus。

Standford Parserはptdファイルでトレーニングできます。次に、生物医学のテキストを操作したいので、Genia Corpusをダウンロードしました。

~~http://categorizer.tmit.bme.hu/~illes/genia_ptb/~~ ^{（リンクは使用できなくなりました）} （genia_ptb.tar.gz）

次に、1つの生物医学的文章の依存関係表現を取得するための短いMainクラスがあります。

    String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb";

    Treebank tr = op.tlpParams.diskTreebank();
    tr.loadPath(treebankPath);  
    LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op);

私はさまざまな方法を試しましたが、常に同じ結果が得られます。

最後の行にエラーがあります。これは私の出力です：

Currently Fri Jun 01 15:02:57 CEST 2012
Options parameters:
useUnknownWordSignatures 2
smoothInUnknownsThreshold 100
smartMutation false
useUnicodeType false
unknownSuffixSize 1
unknownPrefixSize 1
flexiTag true
useSignatureForKnownSmoothing false
parserParams edu.stanford.nlp.parser.lexparser.EnglishTreebankParserParams
forceCNF false
doPCFG true
doDep false
freeDependencies false
directional true
genStop true
distance true
coarseDistance false
dcTags false
nPrune false
Train parameters: smooth=false PA=true GPA=false selSplit=true (400.0; deleting [VP^SQ, VP^VP, VP^SINV, VP^NP]) mUnary=1 mUnaryTags=false sPPT=false tagPA=true tagSelSplit=false (0.0) rightRec=true leftRec=false collinsPunc=false markov=true mOrd=2 hSelSplit=true (10) compactGrammar=3 postPA=false postGPA=false selPSplit=false (0.0) tagSelPSplit=false (0.0) postSplitWithBase=false fractionBeforeUnseenCounting=0.5 openClassTypesThreshold=50 preTransformer=null taggedFiles=null
Using EnglishTreebankParserParams splitIN=4 sPercent=true sNNP=0 sQuotes=false sSFP=false rbGPA=false j#=false jJJ=false jNounTags=false sPPJJ=false sTRJJ=false sJJCOMP=false sMoreLess=false unaryDT=true unaryRB=true unaryPRP=false reflPRP=false unaryIN=false sCC=1 sNT=false sRB=false sAux=2 vpSubCat=false mDTV=2 sVP=3 sVPNPAgr=false sSTag=0 mVP=false sNP%=0 sNPPRP=false dominatesV=1 dominatesI=false dominatesC=false mCC=0 sSGapped=4 numNP=false sPoss=1 baseNP=1 sNPNNP=0 sTMP=1 sNPADV=1 cTags=true rightPhrasal=false gpaRootVP=false splitSbar=0 mPPTOiIN=0
Binarizing trees...done. Time elapsed: 141 ms
Extracting PCFG...done. Time elapsed: 56 ms
Compiling grammar...done Time elapsed: 1 ms
Extracting Lexicon...Exception in thread "main" edu.stanford.nlp.util.ReflectionLoading$ReflectionLoadingException: edu.stanford.nlp.util.MetaClass$ClassCreationException: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at edu.stanford.nlp.util.ReflectionLoading.loadByReflection(ReflectionLoading.java:39)
    at edu.stanford.nlp.parser.lexparser.BaseLexicon.initializeTraining(BaseLexicon.java:335)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.getParserFromTreebank(LexicalizedParser.java:800)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.trainFromTreebank(LexicalizedParser.java:226)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.trainFromTreebank(LexicalizedParser.java:237)
    at ABravoDemo.main(ABravoDemo.java:35)
Caused by: edu.stanford.nlp.util.MetaClass$ClassCreationException: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at edu.stanford.nlp.util.MetaClass.createFactory(MetaClass.java:353)
    at edu.stanford.nlp.util.MetaClass.createInstance(MetaClass.java:370)
    at edu.stanford.nlp.util.ReflectionLoading.loadByReflection(ReflectionLoading.java:37)
    ... 5 more
Caused by: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at java.net.URLClassLoader$1.run(URLClassLoader.java:200)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:188)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:303)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:248)
    at java.lang.ClassLoader.loadClassInternal(ClassLoader.java:316)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:169)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.construct(MetaClass.java:119)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.<init>(MetaClass.java:192)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.<init>(MetaClass.java:53)
    at edu.stanford.nlp.util.MetaClass.createFactory(MetaClass.java:349)
    ... 7 more

このコーパスで新しいモデルを作成するにはどうすればよいですか？

java nlp stanford-nlp

— ネイサン
ソース

2

チェック：stackoverflow.com/a/3158157/2128327

— Khaled.K 2013年

スタンフォードタガー用に独自のトレーニングコーパスを作成

— Andremoniy 2016

5

本当の原因は「java.lang.ClassNotFoundException：edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer」です。nlp.stanford.edu/software/...は、そのクラスを持っていますか？現在、900MBをダウンロードして確認することはできません。

— andrucz 2016

1

この動画をお試しください、youtube.com

— watch

1

andruczがコメントで述べたように、問題の本当の原因は、クラスが欠落していることが原因であるようです。

ライブラリを正しくインポートしたかどうかを確認してください（そして、ライブラリにのクラスEnglishUnknownWordModelTra‌inerが含まれていることを確認してedu.stanford.nlp.parser.lexparserください

（Mavenを使用している場合は、依存関係が正しく追加されていることを確認してください-これをすばやくグーグルブラウジング：Stanford Parser Maven Repo）

— マクシミリアン・シルム
ソース

1

NLPライブラリは正しくインストールされましたか？ログをチェックして、エラーがないことを確認します。ほとんどの場合、この問題は、stanford nltkライブラリが正しくインストールされていないときに発生します。

すばやくチェックする方法は、GUIを実行してパーサーを試すことです。それが正常に実行された場合、ライブラリは正しくインストールされます。それ以外の場合、エラーがスローされ、インストールに問題があることがわかります。

スタンフォードのウェブサイトはまたこれが見てみると述べています：

解析に慣れていない場合は、まずGUIを実行してパーサーを試すことができます。Linux（lexparser-gui.sh）およびWindows（lexparser-gui.bat）用のスクリプトが含まれています。Javadoc lexparserパッケージドキュメントとLexicalizedParserクラスドキュメントをご覧ください。（Webブラウザーで、含まれているjavadocディレクトリーのindex.htmlファイルをポイントし、それらの項目にナビゲートします。）よくある質問への回答については、パーサーのFAQを参照してください。それでも問題が解決しない場合は、メールガイドラインを参照して、サポートを受けるための連絡方法を確認してください。

— ビニーペザ
ソース

0

ライブラリが正しくインポートされているかどうかを確認し、ライブラリに{EnglishUnknownWordModelTra‌ iner}クラスが含まれていることを確認してください。また、ダウンロードしたバージョンがGenia Corpsで正しく動作することを確認してください。

— ディヴィアミシュラ
ソース