プログラミング nltk

7

私はこの本（NLTK）を読んでいて、混乱しています。エントロピーは次のように定義されます。エントロピーは、各ラベルの確率とその同じラベルの対数確率の合計ですテキストマイニングに関してエントロピーと最大エントロピーをどのように適用できますか？誰かが私に簡単でシンプルな例（ビジュアル）を教えてくれますか？

338 math text computer-science nltk text-mining

15

nltk.data.loadでenglish.pickleを読み込めませんでした

punktトークナイザーをロードしようとすると... import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ... a LookupErrorが発生しました： > LookupError: > ********************************************************************* > Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: nltk.download(). Searched in: > - 'C:\\Users\\Martinos/nltk_data' > - 'C:\\nltk_data' > - 'D:\\nltk_data' > - 'E:\\nltk_data' > - 'E:\\Python26\\nltk_data' > - 'E:\\Python26\\lib\\nltk_data' > - …

144 python jenkins nltk

8

NLTKのすべての可能なposタグは何ですか？

自然言語ツールキット（nltk）で使用されるすべての可能なposタグのリストを見つけるにはどうすればよいですか？

140 python nltk

15

Pythonのnグラム、4、5、6グラム？

テキストをNグラムに分割する方法を探しています。通常、私は次のようなことをします： import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams nltkはバイグラムとトライグラムしか提供していないことを知っていますが、テキストを4グラム、5グラム、さらには100グラムに分割する方法はありますか？ありがとう！

137 python string nltk n-gram

9

Pythonで単語が英語の単語かどうかを確認する方法

単語が英語の辞書にあるかどうかをPythonプログラムでチェックしたい。 nltk wordnetインターフェースが適切な方法であると思いますが、そのような単純なタスクでそれを使用する方法はわかりません。 def is_english_word(word): pass # how to I implement is_english_word? is_english_word(token.lower()) 将来的には、単語の単数形が辞書にあるかどうかを確認する必要があるかもしれません（たとえば、プロパティ->プロパティ->英語の単語）。どうすればそれを達成できますか？

134 python nltk wordnet

9

レンマ化とステミングの違いは何ですか？

いつ使用しますか？また、NLTKの見出し語化は品詞に依存していますか？もしそうなら、それはより正確ではないでしょうか？

131 python nlp nltk lemmatization

11

NLTKトークナイザーを使用して句読点を取り除く方法は？

私はNLTKを使い始めたばかりで、テキストから単語のリストを取得する方法がよくわかりません。を使用するとnltk.word_tokenize()、単語と句読点のリストが表示されます。代わりに言葉だけが必要です。句読点を取り除くにはどうすればよいですか？またword_tokenize、複数の文では機能しません。ドットは最後の単語に追加されます。

125 python nlp tokenize nltk

12

nltkまたはpythonを使用してストップワードを削除する方法

それで、ストップワードを使用したくないデータセットがあります stopwords.words('english') 私はコード内でこれを使用して、単にこれらの単語を単に取り出すために苦労しています。このデータセットの単語のリストはすでにあります。私が苦労しているのは、このリストと比較してストップワードを削除することです。どんな助けでもありがたいです。

110 python nltk stop-words

7

インストールされているnltk、scikit学習のバージョンを確認する方法

シェルスクリプトで、このパッケージがインストールされているかどうかを確認しています。インストールされていない場合は、インストールしてください。だからシェルスクリプトを使って： import nltk echo nltk.__version__ しかし、それはimport行でシェルスクリプトを停止します Linuxターミナルでこの方法で見ようとしました： which nltk インストールされているとは考えられません。シェルスクリプトでこのパッケージのインストールを確認する他の方法はありますか？インストールされていない場合は、それもインストールします。

102 python linux shell scikit-learn nltk

26

ほとんどすべてのライブラリをインストールするpipの問題

ほとんど何でもインストールするのにpipを使うのは難しいです。私はコーディングの初心者なので、これはおそらく私が間違っていることだと思い、easy_installをオプトアウトして、必要なことのほとんどを実行しました。ただし、今はnltkライブラリをダウンロードしようとしており、どちらも作業を完了していません。入ってみた sudo pip install nltk しかし、次の応答を得ました： /Library/Frameworks/Python.framework/Versions/2.7/bin/pip run on Sat May 4 00:15:38 2013 Downloading/unpacking nltk Getting page https://pypi.python.org/simple/nltk/ Could not fetch URL [need more reputation to post link]: There was a problem confirming the ssl certificate: <urlopen error [Errno 1] _ssl.c:504: error:0D0890A1:asn1 encoding routines:ASN1_verify:unknown message digest algorithm> Will …

101 python pip nltk easy-install

17

リソースu'tokenizers / punkt / english.pickle 'が見つかりません

私のコード： import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') エラーメッセージ： [ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py Traceback (most recent call last): File "mapper_local_v1.0.py", line 16, in <module> tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load opened_resource = _open(resource_url) File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open return find(path_, path + ['']).open() File "/usr/lib/python2.6/site-packages/nltk/data.py", line 618, in …

96 python unix nltk

18

スタンフォードパーサーとNLTK

NLTKでStanford Parserを使用することは可能ですか？（私はスタンフォードPOSについて話していません。）

90 python parsing nlp nltk stanford-nlp

6

Python：tf-idf-cosine：ドキュメントの類似性を見つける

私はパート1とパート2で利用可能なチュートリアルに従っていました。残念ながら、著者には、コサイン類似度を使用して2つのドキュメント間の距離を実際に見つけることを含む最後のセクションの時間はありませんでした。私は記事内の例に従って、stackoverflowからの次のリンクの助けを借りて、上記のリンクで言及されているコードが含まれています（人生を楽にするために） from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from nltk.corpus import stopwords import numpy as np import numpy.linalg as LA train_set = ["The sky is blue.", "The sun is bright."] # Documents test_set = ["The sun in the sky is bright."] # Query stopWords = stopwords.words('english') vectorizer = CountVectorizer(stop_words …

90 python machine-learning nltk information-retrieval tf-idf

7

コードからnltkデータディレクトリを設定する方法は？

88 python path directory nlp nltk

4

NLTKで新しいコーパスを作成する

私のタイトルの答えは、ドキュメントを読んで行くことであることが多いと思いましたが、NLTKの本を読みましたが、答えが得られません。私はPythonに少し慣れていません。たくさんの.txtファイルがあり、NLTKがコーパスに提供するコーパス関数を使用できるようにしたいと考えていますnltk_data。私は試しましたPlaintextCorpusReaderが、それ以上進むことができませんでした： >>>import nltk >>>from nltk.corpus import PlaintextCorpusReader >>>corpus_root = './' >>>newcorpus = PlaintextCorpusReader(corpus_root, '.*') >>>newcorpus.words() newcorpuspunktを使用して文をセグメント化するにはどうすればよいですか？パンク関数を使ってみましたが、パンク関数がPlaintextCorpusReaderクラスを読み取れませんでしたか？セグメント化されたデータをテキストファイルに書き込む方法についても教えていただけますか？

83 python nlp nltk corpus

タグ付けされた質問 「nltk」

タグ付けされた質問「nltk」