Genia CorpusでStanford Parserをトレーニングする方法は?
Stanford Parserの新しいモデルを作成するのにいくつか問題があります。 また、スタンフォードから最新バージョンをダウンロードしました:http : //nlp.stanford.edu/software/lex-parser.shtml そして、ここでは、2つの形式のxmlとptb(Penn Treebank)のGenia Corpus。 Standford Parserはptdファイルでトレーニングできます。次に、生物医学のテキストを操作したいので、Genia Corpusをダウンロードしました。 http://categorizer.tmit.bme.hu/~illes/genia_ptb/ (リンクは使用できなくなりました) (genia_ptb.tar.gz) 次に、1つの生物医学的文章の依存関係表現を取得するための短いMainクラスがあります。 String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb"; Treebank tr = op.tlpParams.diskTreebank(); tr.loadPath(treebankPath); LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op); 私はさまざまな方法を試しましたが、常に同じ結果が得られます。 最後の行にエラーがあります。これは私の出力です: Currently Fri Jun 01 15:02:57 CEST 2012 Options parameters: useUnknownWordSignatures 2 smoothInUnknownsThreshold 100 smartMutation false useUnicodeType false unknownSuffixSize 1 unknownPrefixSize 1 flexiTag …