タグ付けされた質問 「nltk」

Natural Language Toolkitは、計算言語学のためのPythonライブラリです。

7
「エントロピーと情報獲得」とは何ですか?
私はこの本(NLTK)を読んでいて、混乱しています。 エントロピーは次のように定義されます。 エントロピーは、各ラベルの確率とその同じラベルの対数確率の合計です テキストマイニングに関してエントロピーと最大エントロピーをどのように適用できますか?誰かが私に簡単でシンプルな例(ビジュアル)を教えてくれますか?

15
nltk.data.loadでenglish.pickleを読み込めませんでした
punktトークナイザーをロードしようとすると... import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ... a LookupErrorが発生しました: > LookupError: > ********************************************************************* > Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: nltk.download(). Searched in: > - 'C:\\Users\\Martinos/nltk_data' > - 'C:\\nltk_data' > - 'D:\\nltk_data' > - 'E:\\nltk_data' > - 'E:\\Python26\\nltk_data' > - 'E:\\Python26\\lib\\nltk_data' > - …
144 python  jenkins  nltk 


15
Pythonのnグラム、4、5、6グラム?
テキストをNグラムに分割する方法を探しています。通常、私は次のようなことをします: import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams nltkはバイグラムとトライグラムしか提供していないことを知っていますが、テキストを4グラム、5グラム、さらには100グラムに分割する方法はありますか? ありがとう!
137 python  string  nltk  n-gram 

9
Pythonで単語が英語の単語かどうかを確認する方法
単語が英語の辞​​書にあるかどうかをPythonプログラムでチェックしたい。 nltk wordnetインターフェースが適切な方法であると思いますが、そのような単純なタスクでそれを使用する方法はわかりません。 def is_english_word(word): pass # how to I implement is_english_word? is_english_word(token.lower()) 将来的には、単語の単数形が辞書にあるかどうかを確認する必要があるかもしれません(たとえば、プロパティ->プロパティ->英語の単語)。どうすればそれを達成できますか?
134 python  nltk  wordnet 


11
NLTKトークナイザーを使用して句読点を取り除く方法は?
私はNLTKを使い始めたばかりで、テキストから単語のリストを取得する方法がよくわかりません。を使用するとnltk.word_tokenize()、単語と句読点のリストが表示されます。代わりに言葉だけが必要です。句読点を取り除くにはどうすればよいですか?またword_tokenize、複数の文では機能しません。ドットは最後の単語に追加されます。
125 python  nlp  tokenize  nltk 

12
nltkまたはpythonを使用してストップワードを削除する方法
それで、ストップワードを使用したくないデータセットがあります stopwords.words('english') 私はコード内でこれを使用して、単にこれらの単語を単に取り出すために苦労しています。このデータセットの単語のリストはすでにあります。私が苦労しているのは、このリストと比較してストップワードを削除することです。どんな助けでもありがたいです。
110 python  nltk  stop-words 

7
インストールされているnltk、scikit学習のバージョンを確認する方法
シェルスクリプトで、このパッケージがインストールされているかどうかを確認しています。インストールされていない場合は、インストールしてください。だからシェルスクリプトを使って: import nltk echo nltk.__version__ しかし、それはimport行でシェルスクリプトを停止します Linuxターミナルでこの方法で見ようとしました: which nltk インストールされているとは考えられません。 シェルスクリプトでこのパッケージのインストールを確認する他の方法はありますか?インストールされていない場合は、それもインストールします。

26
ほとんどすべてのライブラリをインストールするpipの問題
ほとんど何でもインストールするのにpipを使うのは難しいです。私はコーディングの初心者なので、これはおそらく私が間違っていることだと思い、easy_installをオプトアウトして、必要なことのほとんどを実行しました。ただし、今はnltkライブラリをダウンロードしようとしており、どちらも作業を完了していません。 入ってみた sudo pip install nltk しかし、次の応答を得ました: /Library/Frameworks/Python.framework/Versions/2.7/bin/pip run on Sat May 4 00:15:38 2013 Downloading/unpacking nltk Getting page https://pypi.python.org/simple/nltk/ Could not fetch URL [need more reputation to post link]: There was a problem confirming the ssl certificate: <urlopen error [Errno 1] _ssl.c:504: error:0D0890A1:asn1 encoding routines:ASN1_verify:unknown message digest algorithm> Will …
101 python  pip  nltk  easy-install 

17
リソースu'tokenizers / punkt / english.pickle 'が見つかりません
私のコード: import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') エラーメッセージ: [ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py Traceback (most recent call last): File "mapper_local_v1.0.py", line 16, in <module> tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load opened_resource = _open(resource_url) File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open return find(path_, path + ['']).open() File "/usr/lib/python2.6/site-packages/nltk/data.py", line 618, in …
96 python  unix  nltk 


6
Python:tf-idf-cosine:ドキュメントの類似性を見つける
私はパート1とパート2で利用可能なチュートリアルに従っていました。残念ながら、著者には、コサイン類似度を使用して2つのドキュメント間の距離を実際に見つけることを含む最後のセクションの時間はありませんでした。私は記事内の例に従って、stackoverflowからの次のリンクの助けを借りて、上記のリンクで言及されているコードが含まれています(人生を楽にするために) from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from nltk.corpus import stopwords import numpy as np import numpy.linalg as LA train_set = ["The sky is blue.", "The sun is bright."] # Documents test_set = ["The sun in the sky is bright."] # Query stopWords = stopwords.words('english') vectorizer = CountVectorizer(stop_words …


4
NLTKで新しいコーパスを作成する
私のタイトルの答えは、ドキュメントを読んで行くことであることが多いと思いましたが、NLTKの本を読みましたが、答えが得られません。私はPythonに少し慣れていません。 たくさんの.txtファイルがあり、NLTKがコーパスに提供するコーパス関数を使用できるようにしたいと考えていますnltk_data。 私は試しましたPlaintextCorpusReaderが、それ以上進むことができませんでした: >>>import nltk >>>from nltk.corpus import PlaintextCorpusReader >>>corpus_root = './' >>>newcorpus = PlaintextCorpusReader(corpus_root, '.*') >>>newcorpus.words() newcorpuspunktを使用して文をセグメント化するにはどうすればよいですか?パンク関数を使ってみましたが、パンク関数がPlaintextCorpusReaderクラスを読み取れませんでしたか? セグメント化されたデータをテキストファイルに書き込む方法についても教えていただけますか?
83 python  nlp  nltk  corpus 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.