4
NLTKで新しいコーパスを作成する
私のタイトルの答えは、ドキュメントを読んで行くことであることが多いと思いましたが、NLTKの本を読みましたが、答えが得られません。私はPythonに少し慣れていません。 たくさんの.txtファイルがあり、NLTKがコーパスに提供するコーパス関数を使用できるようにしたいと考えていますnltk_data。 私は試しましたPlaintextCorpusReaderが、それ以上進むことができませんでした: >>>import nltk >>>from nltk.corpus import PlaintextCorpusReader >>>corpus_root = './' >>>newcorpus = PlaintextCorpusReader(corpus_root, '.*') >>>newcorpus.words() newcorpuspunktを使用して文をセグメント化するにはどうすればよいですか?パンク関数を使ってみましたが、パンク関数がPlaintextCorpusReaderクラスを読み取れませんでしたか? セグメント化されたデータをテキストファイルに書き込む方法についても教えていただけますか?