タグ付けされた質問 「nlp」

自然言語処理(NLP)は、コンピューターサイエンス、人工知能、およびコンピューターと人間(自然)言語間の相互作用に関連する言語学の分野です。そのため、NLPは人間とコンピュータの相互作用の領域に関連しています。NLPの多くの課題には自然言語の理解が含まれます。つまり、コンピュータが人間または自然言語の入力から意味を導き出すことを可能にし、他の課題には自然言語の生成が含まれます。

3
Word2VecとDoc2Vecはどちらも分布表現ですか、それとも分散表現ですか?
私は、分布表現が、類似した文脈で出現する単語は類似した意味を持つ傾向があるという分布仮説に基づいていることを読みました。 Word2VecとDoc2Vecはどちらも、この仮説に従ってモデル化されています。ただし、元の論文では、Distributed representation of words and phrasesととタイトルが付けられていDistributed representation of sentences and documentsます。したがって、これらのアルゴリズムは、分散表現または分散表現に基づいています。 LDAやLSAなどの他のモデルについてはどうでしょうか。

2
ノイズの多い文字列のリストから正規の文字列を抽出する
何千もの文字列のリストがあり、各リストには約10個の文字列があります。特定のリストのほとんどの文字列は非常によく似ていますが、一部の文字列は他の文字列と(ほとんど)まったく無関係であり、一部の文字列には無関係な単語が含まれています。これらは、標準的な文字列のノイズの多いバリエーションと見なすことができます。各リストをこの正規の文字列に変換するアルゴリズムまたはライブラリを探しています。 以下はそのようなリストの1つです。 スター・ウォーズ:エピソードIV新しい希望| StarWars.com スターウォーズエピソードIV-新しい希望(1977) スター・ウォーズ:エピソードIV-新しい希望-腐ったトマト スター・ウォーズ:エピソードIV-新しい希望をオンラインで無料で見る スター・ウォーズ(1977)-グレイテスト・フィルム [REC] 4つのポスターが船外機による死を約束-SciFiNow このリストでは、正規表現に一致する任意の文字列^Star Wars:? Episode IV (- )?A New Hope$が受け入れられます。 私は、Courseraでの機械学習に関するAndrew Ngのコースを見ましたが、同様の問題を見つけることができませんでした。

1
英語の文章の複雑さを判断するにはどうすればよいですか?
私は人々が第二言語として英語を学ぶのを助けるアプリに取り組んでいます。文章が追加のコンテキストを提供することで言語の学習に役立つことを検証しました。60人の生徒の教室で小規模な調査を実施しました。 私はWikipediaから10万以上の文をさまざまな英語の単語(Barronsの800の単語と1000の最も一般的な英語の単語を含む)についてマイニングしました データ全体はhttps://buildmyvocab.inで入手できます コンテンツの品質を維持するために、理解しにくい可能性があるため、160文字を超える文章は除外しました。 次のステップとして、このコンテンツを理解しやすい順に並べ替えるプロセスを自動化できるようにしたいと考えています。私自身は英語を母国語としない人です。簡単な文章と難しい文章を区別するために使用できる機能を知りたい。 また、これは可能だと思いますか?

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 


5
ストップワードの良いリストを作成する方法
ストップワードのリストをキュレートする方法に関するヒントを探しています。誰かが前処理とフィルタリングのためにデータセット自体からストップワードリストを抽出するための良い方法を知っている/誰かが推奨できるか? データ: 数年にわたる可変長の膨大な量の人間によるテキスト入力(検索用語と全文(最大200文字))。テキストには大量のスパム(ボットからのマシン入力、単一の単語、愚かな検索、製品の検索など)が含まれており、数%しか役に立たないようです。時々(ごくまれに)人々が本当にかっこいい質問をして私の側を探すことに気づきました。これらの質問はとてもかっこいいので、時間をかけて人々がどのように検索しているか、人々が私のウェブサイトの使用に興味を持っているトピックを確認するために、それらをより深く調べる価値があると思います。 私の問題: 前処理(つまり、スパムのドロップ)に本当に苦労しています。私はすでにウェブからいくつかのストップワードリスト(NLTKなど)を試しましたが、これらはこのデータセットに関する私のニーズに実際には役立ちません。 あなたのアイデアと議論の人々をありがとう!

1
NERにVowpal Wabbitを使用する
Vowpal Wabbit(VW)は明らかにSEARNを介したシーケンスタグ付け機能をサポートしています。問題は、説明といくつかの例を含む詳細なパラメーターリストがどこにも見つからないことです。私が見つけた最高のものは、非常に短い例のあるジンコフのブログエントリです。メインのwikiページはかろうじてSEARNに言及しています。 チェックアウトしたソースコードで、NERサンプルデータを含むデモフォルダーを見つけました。残念ながら、すべてのテストを実行するスクリプトは、このデータで実行する方法を示していません。少なくとも、期待される形式を確認するのに十分な情報でした。エントリが空白行で区切られていることを除いて、標準のVWデータ形式とほぼ同じです(これは重要です)。 私の現在の理解は、次のコマンドを実行することです。 cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \ --searn_passes_per_policy 2 -b 30 -f twpos.vw どこ --searn 25 -NERラベルの総数(?) --searn_task sequence -シーケンスタグ付けタスク(?) --searn_passes_per_policy 2 -何をしているのかわからない その他のパラメーターはVWの標準であり、追加の説明は必要ありません。おそらく、SEARNに固有のパラメーターが他にありますか?それらの重要性と影響は何ですか?それらを調整する方法?経験則はありますか? 例へのポインタは高く評価されます。

1
Apache Sparkでコサイン類似度を計算する
特定の単語のIDFが計算されたDataFrameがあります。例えば (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on クエリQを指定すると、このクエリのTF-IDFを計算できます。データフレーム内のすべてのドキュメントを含むクエリのコサイン類似度を計算するにはどうすればよいですか(100万のドキュメントに近い) ベクトルの乗算を使用して、map-reduceジョブで手動で実行できます コサイン類似度(Q、ドキュメント)=ドット積(Q、ドキュメント)/ || Q || * ||ドキュメント|| しかし確かにSpark MLはテキストのコサイン類似度の計算をネイティブでサポートする必要がありますか? 言い換えると、検索クエリが与えられた場合、DataFrameからドキュメントTF-IDFの最も近い余弦をどのように見つけるのですか?

2
LSTM-LMフォーミュレーションとは何ですか?
私はこの論文「ニューラルネットワークによるシーケンス学習へのシーケンス」を読んでいますhttp://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf 「2.モデル」の下でそれは言う: LSTMはこの条件付き確率を計算します。最初に、LSTMの最後の非表示状態によって与えられる入力シーケンス(x1、...、xT)の固定次元表現vを取得し、次にy1、...の確率を計算します。。。、yT 'と標準のLSTM-LM公式を使用して、初期の隠蔽状態をx1の表現vに設定します。。。、xT: LSTMとは何か知っていますが、LSTM-LMとは何ですか?私はそれをグーグルで試しましたが、良いリードを見つけることができません。


1
NLTKによる複雑なチャンク
私は、NLTKブックの第7章に従って、NLTKのカスケードチャンカーの使用方法を理解しようとしています。残念ながら、重要なチャンク対策を実行するときにいくつかの問題が発生します。 このフレーズから始めましょう: "adventure movies between 2000 and 2015 featuring performances by daniel craig" 次の文法を使用すると、関連するすべてのNPを見つけることができます。 grammar = "NP: {<DT>?<JJ>*<NN.*>+}" ただし、NLTKを使用してネストされた構造を構築する方法がわかりません。この本は次の形式を示していますが、明らかにいくつか欠けているものがあります(たとえば、実際に複数のルールをどのように指定するのですか?): grammar = r""" NP: {<DT|JJ|NN.*>+} # Chunk sequences of DT, JJ, NN PP: {<IN><NP>} # Chunk prepositions followed by NP VP: {<VB.*><NP|PP|CLAUSE>+$} # Chunk verbs and their arguments CLAUSE: {<NP><VP>} # …
8 python  nlp  nltk 

1
テキストデータを300のカテゴリに分類するためにどの分類アルゴリズムを試すか
ヘルスケアドメインのテキストデータが40000行あります。データには、テキスト(2〜5文)の1つの列と、そのカテゴリの1つの列があります。それを300のカテゴリーに分類したい。一部のカテゴリは独立していますが、いくらか関連しています。カテゴリ間のデータの分布も均一ではありません。つまり、一部のカテゴリ(そのうちの約40)には、2〜3行程度のデータしかありません。 各クラス/カテゴリのログ確率を添付しています。(またはクラスの分布)ここに。

2
NLPを使用してユーザーの説明の分類を自動化する
会社が所有する製品に関する顧客からの苦情の巨大なファイルがあり、それらの説明についてデータ分析を行い、それぞれにカテゴリをタグ付けしたいと考えています。 たとえば、顧客の苦情から、製品のソフトウェアおよびハードウェア側の苦情の数を把握する必要があります。現在、私はデータ分析を行うためにExcelを使用しています。これは、苦情にタグ名を取得するためにかなりの量の手動作業を求めています。 このプロセスを自動化するモデルを構築およびトレーニングする方法はNLPにありますか?私は過去2日間、NLPに関するものを読んでいますが、NLPにはこの問題への取り組みを始めるための優れた機能がたくさんあるようです。誰かが、NLPを使用してこの問題に対処する方法を教えてくれませんか?

2
個々の検索クエリ間の距離を計算するいくつかの標準的な方法は何ですか?
「ドキュメント」(ウィキペディアの記事、ニュース記事など)の間隔についても同様の質問をしました。検索クエリはドキュメントよりかなり小さく、かなりうるさいので、これを別の質問にしました。したがって、ここで同じ距離メトリックが使用されるかどうかはわかりません(そして疑います)。 バニラの字句距離メトリックまたは最新のセマンティック距離メトリックのいずれかが推奨され、後者がより優先されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.