タグ付けされた質問 「nlp」

自然言語処理(NLP)は、人工言語のサブフィールドであり、自然言語データから有用な情報を変換または抽出します。方法には、機械学習とルールベースのアプローチが含まれます。

18
Googleはどういう意味ですか?アルゴリズムは機能しますか?
私はポートフォリオ管理ツールの内部Webサイトを開発しています。多くのテキストデータ、会社名などがあります。検索エンジンが「もしかして:xxxx」というクエリに非常に迅速に応答できるといういくつかの検索エンジン機能には本当に感動しました。 ユーザークエリをインテリジェントに取得し、生の検索結果だけでなく、「もしかして?」可能性が高い代替回答がある場合の応答など [私はASP.NETで開発しています(VB-私に対して保持しないでください!)] 更新:OK、何百万もの「無給のユーザー」なしでこれをどのように模倣できますか? 「既知」または「正しい」用語ごとにタイプミスを生成し、ルックアップを実行しますか? 他のよりエレガントな方法はありますか?


10
Java Stanford NLP:音声ラベルの一部ですか?
Stanford NLPは、ここでデモを行い、次のような出力を提供します。 Colorless/JJ green/JJ ideas/NNS sleep/VBP furiously/RB ./. 品詞タグの意味は何ですか?公式リストが見つかりません。スタンフォード独自のシステムですか、それともユニバーサルタグを使用していますか?(JJたとえば、何ですか?) また、たとえば名詞を探して文を反復しているとき、タグがあるかどうかを確認するようなチェックを行うことになります.contains('N')。これはかなり弱い気がします。プログラムで特定の品詞を検索するより良い方法はありますか?

15
単語の音節を検出する
単語の音節を検出するかなり効率的な方法を見つける必要があります。例えば、 非表示-> in-vi-sib-le 使用できるいくつかの音節規則があります。 V CV VC CVC CCV CCCV CVCC * Vは母音、Cは子音です。例えば、 発音(5 Pro-nun-ci-a-tion; CV-CVC-CV-V-CVC) 私はいくつかの方法を試しましたが、そのうちの1つは正規表現(音節を数える場合にのみ役立ちます)またはハードコードされたルール定義(非常に非効率的であることが判明したブルートフォースアプローチ)を使用し、最後に有限状態オートマトン(実際には役立つものは何もありません)。 私のアプリケーションの目的は、特定の言語ですべての音節の辞書を作成することです。この辞書は、後でスペルチェックアプリケーション(ベイズ分類器を使用)およびテキストから音声への合成に使用されます。 以前のアプローチ以外に、この問題を解決する別の方法のヒントを教えていただければ幸いです。 私はJavaで作業しますが、C / C ++、C#、Python、Perlのヒントがあればうまくいきます。


6
Appleはどのように電子メールの日付、時刻、アドレスを見つけますか?
iOSメールクライアントでは、メールに日付、時刻、場所が含まれている場合、テキストがハイパーリンクになり、リンクをタップするだけで予定を作成したり、地図を見たりすることができます。英語のメールだけでなく、他の言語でも機能します。私はこの機能が大好きで、彼らがそれをどのように行うかを理解したいと思います。 これを行う素朴な方法は、多くの正規表現を用意してそれらをすべて実行することです。ただし、これはあまりスケールできず、特定の言語や日付形式でのみ機能します。Appleは、エンティティを抽出するために機械学習の概念を使用している必要があると思います(8:00 PM、8PM、8:00、 0800、20:00、20h、20h00、2000など)。 Appleがどのようにして電子メールクライアントでエンティティを非常に迅速に抽出できるかについてのアイデアはありますか?どのような機械学習アルゴリズムを適用して、このようなタスクを達成しますか?

11
NLTKトークナイザーを使用して句読点を取り除く方法は?
私はNLTKを使い始めたばかりで、テキストから単語のリストを取得する方法がよくわかりません。を使用するとnltk.word_tokenize()、単語と句読点のリストが表示されます。代わりに言葉だけが必要です。句読点を取り除くにはどうすればよいですか?またword_tokenize、複数の文では機能しません。ドットは最後の単語に追加されます。
125 python  nlp  tokenize  nltk 


2
自然言語処理用のJavaまたはPython [終了]
休業。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善してみませんか?この投稿を編集して、事実と引用で回答できるように質問を更新してください。 6年前休業。 この質問を改善する 自然言語処理に適したプログラミング言語を教えてください。JavaまたはPython?私はそれについて多くの質問と答えを見つけました。しかし、どちらを使用するかを選択するのにまだ迷っています。 また、ライブラリが多数あるため(LingPipe、GATE、OpenNLP、StandfordNLP)、JavaにどのNLPライブラリを使用するかを知りたいです。Pythonでは、ほとんどのプログラマーがNLTKを推奨しています。 しかし、いくつかの有用な情報を取得するために、非構造化データからテキスト処理または情報抽出(自由形式のプレーンな英語テキストのみ)を行う場合、最適なオプションは何ですか?JavaまたはPython?適切なライブラリ? 更新しました 私がやりたいことは、非構造化データから有用な製品情報を抽出することです(たとえば、ユーザーは携帯電話やラップトップについて、あまり標準的でない英語でさまざまな形式の広告を作成します)。
112 java  python  nlp 

21
単語の語幹解釈または見出し語化を行うにはどうすればよいですか?
私はPorterStemmerとSnowballを試してみましたが、どちらもすべての単語に対して機能するわけではなく、非常に一般的な単語がいくつかありません。 私のテストの言葉は、「走っているサボテンサボテンサボテンコミュニティコミュニティを実行している猫」で、どちらも半分以下しか正しくありません。 以下も参照してください。 実際の単語を生成するステミングアルゴリズム ステミング-コード例またはオープンソースプロジェクト?

4
scikit learnを使用したマルチクラスケースの精度、再現率、精度、およびf1スコアを計算する方法
私はデータがこのように見える感情分析問題で働いています: label instances 5 1190 4 838 3 239 1 204 2 127 したがって、1190はでinstancesラベル付けされて5いるため、私のデータは不均衡です。分類については、scikitのSVCを使用しています。問題は、マルチクラスの場合の精度、再現率、精度、およびf1-scoreを正確に計算するために、データを正しい方法でバランスを取る方法がわからないことです。だから私は次のアプローチを試しました: 最初: wclf = SVC(kernel='linear', C= 1, class_weight={1: 10}) wclf.fit(X, y) weighted_prediction = wclf.predict(X_test) print 'Accuracy:', accuracy_score(y_test, weighted_prediction) print 'F1 score:', f1_score(y_test, weighted_prediction,average='weighted') print 'Recall:', recall_score(y_test, weighted_prediction, average='weighted') print 'Precision:', precision_score(y_test, weighted_prediction, average='weighted') print '\n clasification report:\n', …

3
Genia CorpusでStanford Parserをトレーニングする方法は?
Stanford Parserの新しいモデルを作成するのにいくつか問題があります。 また、スタンフォードから最新バージョンをダウンロードしました:http : //nlp.stanford.edu/software/lex-parser.shtml そして、ここでは、2つの形式のxmlとptb(Penn Treebank)のGenia Corpus。 Standford Parserはptdファイルでトレーニングできます。次に、生物医学のテキストを操作したいので、Genia Corpusをダウンロードしました。 http://categorizer.tmit.bme.hu/~illes/genia_ptb/ (リンクは使用できなくなりました) (genia_ptb.tar.gz) 次に、1つの生物医学的文章の依存関係表現を取得するための短いMainクラスがあります。 String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb"; Treebank tr = op.tlpParams.diskTreebank(); tr.loadPath(treebankPath); LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op); 私はさまざまな方法を試しましたが、常に同じ結果が得られます。 最後の行にエラーがあります。これは私の出力です: Currently Fri Jun 01 15:02:57 CEST 2012 Options parameters: useUnknownWordSignatures 2 smoothInUnknownsThreshold 100 smartMutation false useUnicodeType false unknownSuffixSize 1 unknownPrefixSize 1 flexiTag …
93 java  nlp  stanford-nlp 

23
単語の前に「a」と「an」を正しく付けるにはどうすればよいですか?
私は.NETアプリケーションを持っていて、名詞を与えられたときに、その単語の前に「a」または「an」を正しく付けたいと思っています。どうすればいいですか? 答えが最初の文字が母音であるかどうかを確認するだけであると考える前に、次のようなフレーズを検討してください。 正直な間違い 中古車
92 c#  nlp  linguistics 



弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.