プログラミング nlp

3

現在のところ、この質問はQ＆A形式には適していません。私たちは回答が事実、参考文献、または専門知識によってサポートされることを期待しますが、この質問はおそらく議論、議論、投票、または拡張された議論を誘います。この質問を改善でき、再開できると思われる場合は、ヘルプセンターにアクセスしてください。 7年前休業。現在のモジュールにNLPを実装する必要があります。ここで私を助けることができるいくつかの良いライブラリを探しています。「LingPipe」に出会いましたが、使い方を完全に理解することができませんでした。基本的に、アプリケーションがプレーンな英語で入力された顧客の指示（配達指示）を解読できる機能を実装する必要があります。例えば：明日の正午に迎えに行きます 6月10日以降の配達をリクエスト水曜日までに送らないでください注文に10単位のXYZを追加します

90 java nlp

7

コードからnltkデータディレクトリを設定する方法は？

88 python path directory nlp nltk

12

PythonでのTwitterの感情分析[終了]

閉まっている。この質問はスタックオーバーフローのガイドラインを満たしていません。現在、回答を受け付けていません。この質問を改善してみませんか？Stack Overflowのトピックとなるように質問を更新します。 5年前に閉鎖。この質問を改善する Textual Sentiment Analysis（http://en.wikipedia.org/wiki/Sentiment_analysis）のオープンソース実装（できればpython）を探しています。私が使用できるそのようなオープンソースの実装に詳しい人はいますか？ Twitterで「youtube」などの検索語を検索し、「ハッピー」ツイートと「悲しい」ツイートを比較するアプリケーションを書いています。私はGoogleのappengineを使用しているので、それはpythonです。Twitterから返された検索結果を分類できるようにしたいのですが、Pythonで分類したいと思います。これまでのところ、このような感情分析ツールを見つけることはできません。具体的には、Pythonではできません。私が使用できるそのようなオープンソース実装に精通していますか？できれば、これは既にpythonに含まれていることが望ましいですが、そうでない場合は、pythonに変換できれば幸いです。注、私が分析しているテキストは非常に短く、ツイートです。したがって、理想的には、この分類子はそのような短いテキストに最適化されています。ところで、Twitterは検索で ":)"および ":("演算子をサポートしていますが、これはまさにこれを行うことを目的としていますが、残念ながら、それらによって提供される分類はそれほど大きくないので、私はこれを試してみるかもしれないと思いました。ありがとう！ところで、初期のデモはあり、ここで、私がこれまで持っているコードがあり、ここで、私はどんな興味を持って開発者と、それをオープンソースが大好きです。

87 python machine-learning nlp open-source sentiment-analysis

4

NLTKで新しいコーパスを作成する

私のタイトルの答えは、ドキュメントを読んで行くことであることが多いと思いましたが、NLTKの本を読みましたが、答えが得られません。私はPythonに少し慣れていません。たくさんの.txtファイルがあり、NLTKがコーパスに提供するコーパス関数を使用できるようにしたいと考えていますnltk_data。私は試しましたPlaintextCorpusReaderが、それ以上進むことができませんでした： >>>import nltk >>>from nltk.corpus import PlaintextCorpusReader >>>corpus_root = './' >>>newcorpus = PlaintextCorpusReader(corpus_root, '.*') >>>newcorpus.words() newcorpuspunktを使用して文をセグメント化するにはどうすればよいですか？パンク関数を使ってみましたが、パンク関数がPlaintextCorpusReaderクラスを読み取れませんでしたか？セグメント化されたデータをテキストファイルに書き込む方法についても教えていただけますか？

83 python nlp nltk corpus

3

特定のドメインのセマンティック検索を構築する方法

データセットでセマンティック検索を実行する場所で解決しようとしている問題があります。つまり、ドメイン固有のデータがあります（例：自動車について話す文章）。私たちのデータは単なる文の集まりであり、私たちが欲しいのはフレーズを与えて次のような文を取り戻すことです：そのフレーズに似ていますフレーズに似た文の一部がある文脈的に類似した意味を持つ文「Buying Experience」というフレーズを検索した場合の例を挙げてみましょう。次のような文を取得する必要があります。車の購入に署名して購入するのに30分もかからないとは思っていませんでした。気に入った車を見つけました。購入プロセスは簡単で簡単でしたカーショッピングに行くのは絶対に嫌いだったけど、今日はよかった私は強引な単語検索ではなく、文脈の類似性を探しているという事実を強調したいと思います。文が別の単語を使用している場合は、それを見つけることもできるはずです。私たちがすでに試したこと： Open Semantic Searchここで直面した問題は、私たちが持っているデータからオントロジーを生成すること、またはそのために、関心のあるさまざまなドメインから利用可能なオントロジーを検索することです。 Elastic Search（BM25 + Vectors（tf-idf））、これを試してみましたが、数文しかありませんでしたが、精度はそれほど高くありませんでした。精度も悪かったです。人間が精選したデータセットに対して試したところ、文章の約10％しか取得できませんでした。私たちは、センテンストランスフォーマーで一度言及されたようなさまざまな埋め込みを試し、例も試して、人間が精選したセットに対して評価しようとしましたが、これも非常に精度が低かったです。 ELMOを試しました。これは優れていましたが、予想よりも精度が低く、コサイン値を決定するための認知的負荷があり、それを下回ると文を考慮すべきではありません。これはポイント3にも当てはまります。任意の助けをいただければ幸いです。事前に助けてくれてありがとう

19 python elasticsearch nlp sentence-similarity huggingface-transformers

2

レイアウトが異なるPDFファイルからテキスト情報を抽出する-機械学習

現在作成しようとしているMLプロジェクトについてサポートが必要です。多くの異なるサプライヤーから大量の請求書を受け取ります-すべて独自のレイアウトで。請求書から3つの重要な要素を抽出する必要があります。これらの3つの要素はすべて、すべての請求書のテーブル/ラインアイテムにあります。 3要素は次のとおりです。 1：関税番号（桁） 2：数量（常に数字） 3：合計明細金額（金額）以下のスクリーンショットを参照してください。サンプルの請求書でこれらのフィールドにマークを付けています。このプロジェクトは、正規表現に基づいたテンプレートアプローチから始めました。しかし、これはまったくスケーラブルではなく、大量の異なるルールになってしまいました。ここで機械学習が役立つことを願っています-あるいは、ハイブリッドソリューションですか？一般的な分母では、すべての私の請求書の、異なるレイアウトのにもかかわらず、各ライン項目がします常に 1つので構成されて関税番号。この関税番号は常に8桁で、常に次のような方法でフォーマットされます。 xxxxxxxx xxxx.xxxx xx.xx.xx.xx （「x」は0から9までの数字です）。さらに、請求書で確認できるように、1行あたりの単価と合計金額の両方があります。私が必要とする量は常に各行で最高です。出力上記のような各請求書について、各行の出力が必要です。これは、たとえば次のようなものになります。 { "line":"0", "tariff":"85444290", "quantity":"3", "amount":"258.93" }, { "line":"1", "tariff":"85444290", "quantity":"4", "amount":"548.32" }, { "line":"2", "tariff":"76109090", "quantity":"5", "amount":"412.30" } ここからどこへ行く？私が何をしようとしているのかが機械学習に該当するかどうか、また該当する場合はどのカテゴリに該当するかわかりません。コンピュータビジョンですか？NLP？名前付きエンティティの認識？私の最初の考えは：請求書をテキストに変換します。（請求書はすべてpdftotextテキスト化可能なPDFであるため、正確なテキスト値を取得するようなものを使用できます）カスタム作成名前付きエンティティのためにquantity、tariffそしてamount 見つかったエンティティをエクスポートします。でも、足りないものがあるようです。誰かが正しい方向に私を助けることができますか？編集：請求書テーブルセクションがどのように表示されるかを示す他の例については、以下をご覧ください。請求書の例2 請求書の例3 編集2： …

8 machine-learning image-processing neural-network nlp computer-vision

タグ付けされた質問 「nlp」

タグ付けされた質問「nlp」