タグ付けされた質問 「nlp」

自然言語処理(NLP)は、コンピューターサイエンス、人工知能、およびコンピューターと人間(自然)言語間の相互作用に関連する言語学の分野です。そのため、NLPは人間とコンピュータの相互作用の領域に関連しています。NLPの多くの課題には自然言語の理解が含まれます。つまり、コンピュータが人間または自然言語の入力から意味を導き出すことを可能にし、他の課題には自然言語の生成が含まれます。


1
NLP-「なぜ」ストップワードなのですか?
トピックモデリングを実行する前にストップワードを削除しようとしています。いくつかの否定語(ない、決して、決してない、など)は通常ストップワードと見なされることに気付きました。たとえば、NLTK、spacy、sklearnのストップワードリストには「not」が含まれています。ただし、これらの文から「not」を削除すると、重要な意味が失われ、トピックモデリングやセンチメント分析にとって正確ではなくなります。 1). StackOverflow is helpful => StackOverflow helpful 2). StackOverflow is not helpful => StackOverflow helpful これらの否定語が通常ストップワードであると考えられる理由を説明してください。

4
膨大なデータのPythonでのt-sne実装の速度を改善する
それぞれ200次元のほぼ100万のベクトルで次元削減を行いたい(doc2vec)。モジュールのTSNE実装を使用していsklearn.manifoldますが、主な問題は時間の複雑さです。でもmethod = barnes_hut、計算速度はまだ遅いです。メモリー不足になることもあります。 130G RAMを搭載した48コアプロセッサで実行しています。並列に実行する方法や、プロセスを高速化するために豊富なリソースを使用する方法はありますか。

5
文の類似性に最適な実用的なアルゴリズム
S1とS2の2つの文があり、どちらも15未満の単語数(通常)を持っています。 最も実用的で成功している(機械学習)アルゴリズムは、実装がおそらく簡単です(アーキテクチャがGoogle Inceptionなどのように複雑でない限り、ニューラルネットワークは大丈夫です)。 あまり時間をかけなくても問題なく動作するアルゴリズムを探しています。成功した使いやすいアルゴリズムがありますか? これは、クラスタリングのカテゴリに分類できますが、分類する必要はありません。私の背景は機械学習からですので、どんな提案でも大歓迎です:)

2
NLP-Gazetteerはチートですか?
NLPには、Gazetteer注釈の作成に非常に役立つ概念があります。私が理解する限りでは: 地名辞典は、都市、組織、曜日などのエンティティの名前を含むリストのセットで構成されます。これらのリストは、名前付きエンティティの認識タスクなど、テキストでこれらの名前の出現を見つけるために使用されます。 したがって、本質的にはルックアップです。この種のチートではありませんか?Gazetteer名前付きエンティティを検出するためにaを使用する場合、それほど多くは行われませんNatural Language Processing。理想的には、NLPテクニックを使用して名前付きエンティティを検出したいと思います。それ以外の場合、正規表現パターンマッチャーよりも優れていますか?

2
文書からテキストの最も有益な部分を抽出する
現在のドキュメントに関するほとんどの情報を保持しているテキストの一部を抽出することに関する記事や議論はありますか。 たとえば、同じドメインからの大量のドキュメントがあります。単一のドキュメントが語っている重要な情報を保持するテキストの部分があります。それらの一部を抽出して、テキストの要約として使用したいと思います。このようなことを達成する方法に関する有用なドキュメントはありますか。 自然言語処理のこの分野で既に行われている可能性のある仕事の洞察を得るために、誰かが私が検索または読むべき正しい方向に私を向けることができれば、本当に役立ちます。
16 nlp  text-mining 

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
単語ベースと文字ベースのテキスト生成RNNの違いは何ですか?
リカレントニューラルネットワークIとテキスト生成について読んでいる間、いくつかの例は、テキストを生成するために実施されたことに気づいた単語単位で、他の文字によって文字実際に理由を述べずに。 だから、テキストを予測するRNNモデルの違いは何ですごとの単語の基礎とテキスト予測するものにつき-CHAR根拠は?単語ベースのRNNには、より大きなコーパスサイズが必要ですか?文字ベースのRNNはより一般化されていますか?たぶん、唯一の違いは入力表現(ワンホットエンコーディング、単語埋め込み)でしょうか?テキスト生成に選択するものはどれですか?

4
2つの単語の類似性
2つの単語または文の類似性を識別するのに役立つPythonライブラリを探しています。 私は音声からテキストへの変換を行って、英語の辞書または辞書にない単語を作成します(これは人名または会社名の場合があります)その後、既知の単語と比較する必要があります。 例: オーディオ結果への1)テキスト:アメリカの拡張を呼び出すためのおかげ と比較されますアメリカンエクスプレス。 両方の文は何らかの形で似ていますが、同じではありません。 共有する文字数を調べる必要があるようです。どんなアイデアも素晴らしいでしょう。Google検索の「あなたが言った」機能のような機能に見えます。
15 nlp  nltk 

5
文の類似性予測
私は次の問題を解決しようとしています:データセットとして一連の文があり、新しい文を入力して、新しい文がデータセット内で最も類似している文を見つけたいです。例は次のようになります。 新しい文:「I opened a new mailbox」 データセットに基づいた予測: Sentence | Similarity A dog ate poop 0% A mailbox is good 50% A mailbox was opened by me 80% コサインの類似性は、tf-idfと組み合わせたこれらの種類の問題を解決するために使用できることを読みました(およびRNNは基本的な方法に大きな改善をもたらすべきではありません)、またはword2vecも同様の問題に使用されます。これらもこの特定のケースで実際に使用可能ですか?これを解決する他のテクニック/アルゴリズムはありますか(できればPythonとSKLearnを使用しますが、TensorFlowについても学ぶことができます)?

2
NLPの分類プロセスで解析ツリーのどの機能が一般的に使用されますか?
さまざまなタイプの解析ツリー構造を調査しています。2つの広く知られている解析ツリー構造は、a)Constituencyベースの解析ツリーとb)Dependencyベースの解析ツリー構造です。 スタンフォードNLPパッケージを使用して、両方のタイプの解析ツリー構造を生成できます。ただし、これらのツリー構造を分類タスクに使用する方法がわかりません。 たとえば、感情分析を行い、テキストをポジティブクラスとネガティブクラスに分類したい場合、分類タスクの解析ツリー構造からどのような特徴を導き出すことができますか?

1
ディープラーニングの1D畳み込み層とは
私は、2Dまたは3D実装の場合の画像処理のためのディープラーニングにおける畳み込み層の役割とメカニズムについて十分に理解しています。彼らは「単純に」画像の2Dパターンをキャッチしようとします しかし最近、自然言語処理のコンテキストで1D畳み込み層にぶつかりました。これは、私にとっては驚きの種です。画像のピクセル。1Dコンボリューションの背後にあるロジックは何ですか?

4
事前に訓練されたモデルの重みで新しいword2vecモデルを初期化する方法は?
word2vectorモデルの使用とトレーニングにPythonのGensimライブラリを使用しています。最近、(GoogleNewDataset事前学習済みモデル)などの事前学習済みのword2vecモデルでモデルの重みを初期化することを検討していました。私は数週間それと格闘してきました。さて、私はgesimに、事前に訓練されたモデルの重みでモデルの重みを初期化するのに役立つ関数があることを調べました。以下に説明します。 reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. この関数で同じことができるかどうかはわかりません。助けてください!!!

1
それでは、LSTMの欠点は何ですか?
私はKerasパッケージの知識を拡大しており、利用可能なモデルのいくつかでツールを開発しています。NLPバイナリ分類問題があり、それを解決しようとしており、さまざまなモデルを適用しています。 いくつかの結果を処理し、LSTMの詳細を読んだ後、このアプローチは(複数のデータセットにわたって)私が試した他のどの方法よりもはるかに優れているようです。私は、「なぜ/いつLSTMを使用しないのか」と考え続けています。LSTMに固有の追加のゲートを使用することは、勾配が消えてしまうモデルがいくつかあった後、私にとって完全に理にかなっています。 それでは、LSTMの欠点は何ですか?どこでうまくいかないのですか?「1つのサイズですべてに適合する」アルゴリズムのようなものはないことを知っているので、LSTMには欠点があるに違いありません。

4
異なる形式のドキュメントを比較する場合のTF-IDFおよびコサイン類似性の代替
私は、ユーザーの仕事のスキルを取り入れ、それらのスキルに基づいてユーザーにとって最も理想的なキャリアを提案する小さな個人的なプロジェクトに取り組んできました。これを実現するために、求人リストのデータベースを使用しています。現時点では、コードは次のように機能します。 1)各ジョブリストのテキストを処理して、リストに記載されているスキルを抽出する 2)各キャリア(「データアナリスト」など)について、そのキャリアの求人情報の処理済みテキストを1つのドキュメントに結合します 3)キャリア文書内の各スキルのTF-IDFを計算する この後、ユーザーのスキルのリストに基づいてキャリアをランク付けするためにどの方法を使用する必要があるかわかりません。私が見た最も人気のある方法は、ユーザーのスキルをドキュメントとしても扱い、スキルドキュメントのTF-IDFを計算し、コサイン類似度などを使用してスキルドキュメントと各ドキュメントの類似度を計算することですキャリア文書。 同じ形式の2つのドキュメントを比較するときにコサインの類似性が最もよく使用されるため、これは私にとって理想的な解決策ではないようです。さらに言えば、TF-IDFはユーザーのスキルリストに適用するのに適切なメトリックとは思えません。たとえば、ユーザーがリストに追加のスキルを追加すると、各スキルのTFは低下します。実際には、スキルの頻度がユーザーのスキルリストにあるかどうかは気にしません。ユーザーがそれらのスキルを持っていることを気にしています(そして、それらのスキルをどれだけよく知っているかもしれません)。 より良い測定基準は次のようにすることです。 1)ユーザーが持っているスキルごとに、キャリア文書でそのスキルのTF-IDFを計算します 2)各キャリアについて、ユーザーのすべてのスキルのTF-IDF結果を合計します 3)上記の合計に基づいてキャリアをランク付けする 私はここで正しい線に沿って考えていますか?もしそうなら、これらの線に沿って機能するが、単純な合計よりも洗練されたアルゴリズムはありますか?助けてくれてありがとう!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.