データサイエンス tokenization

NLP：マルチワードトークン化によく使用されるパッケージは何ですか？

いくつかの職務説明テキストをトークン化するつもりです。空白を区切り文字として使用して、標準のトークン化を試しました。しかし、空白で分割された複数の単語の表現がいくつかあり、それが後の処理で精度の問題を引き起こす可能性があることに気付きました。だから私はこれらのテキストで最も興味深い/有益なコロケーションをすべて取得したいと思います。特定のプログラミング言語に関係なく、複数単語のトークン化を行うための優れたパッケージはありますか？たとえば、「彼は情報技術を研究しています」===>「彼」「研究」「情報技術」。 NLTK（Python）にはいくつかの関連機能があることに気づきました。 collocationsモジュール：http : //www.nltk.org/api/nltk.html#module-nltk.collocations nltk.tokenize.mweモジュール：http ://www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.mwe これら2つの違いは何ですか？ nltk.tokenize.mweモジュールのMWETokenizerクラスは、私の目的に向かって機能しているようです。ただし、MWETokenizerでは、複数の単語の式を追加するために、その構築メソッドと.add_mweメソッドを使用する必要があるようです。これを達成するために外部のマルチワード式レキシコンを使用する方法はありますか？もしそうなら、マルチワードの辞書はありますか？ありがとう！

7 nlp nltk tokenization

タグ付けされた質問 「tokenization」

タグ付けされた質問「tokenization」