タグ付けされた質問 「nlp」

自然言語処理(NLP)は、コンピューターサイエンス、人工知能、およびコンピューターと人間(自然)言語間の相互作用に関連する言語学の分野です。そのため、NLPは人間とコンピュータの相互作用の領域に関連しています。NLPの多くの課題には自然言語の理解が含まれます。つまり、コンピュータが人間または自然言語の入力から意味を導き出すことを可能にし、他の課題には自然言語の生成が含まれます。

4
潜在ディリクレ配分対階層ディリクレ過程
潜在ディリクレ割り当て(LDA)と階層ディリクレプロセス(HDP)は、両方ともトピックモデリングプロセスです。主な違いは、LDAではトピックの数を指定する必要がありますが、HDPでは指定しないことです。どうしてこんなことに?そして、両方のトピックモデリング方法の違い、長所、短所は何ですか?
49 nlp  topic-model  lda 


1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
履歴書データに基づいてジョブ分類を実行するには、どのアルゴリズムを使用する必要がありますか?
Rですべてを行っていることに注意してください。 問題は次のようになります。 基本的に、履歴書(CV)のリストがあります。一部の候補者は以前に実務経験があり、いくつかはそうではありません。ここでの目標は、CVのテキストに基づいて、それらを異なる職種に分類することです。私は、候補者が経験を持たない/学生である場合に特に興味があり、卒業後にこの候補者がどの職種に属する可能性が高いかを予測する必要があります。 質問1:機械学習アルゴリズムを知っています。ただし、NLPを実行したことはありません。インターネットでLatent Dirichletの割り当てに出会いました。しかし、これが私の問題に取り組むための最良のアプローチであるかどうかはわかりません。 私の元のアイデア: これを教師付き学習問題にします。ラベル付けされたデータがすでに大量にあると仮定します。つまり、候補者のリストのジョブセクターに正しくラベル付けされています。MLアルゴリズム(つまり、最近傍...)を使用してモデルをトレーニングし、これらのラベルのないデータを入力します。これらのデータは、実務経験がない/学生である候補であり、所属するジョブセクターを予測しようとします。 質問2の更新:履歴書のすべてを抽出してテキストファイルを作成し、各履歴書が非構造化文字列を含むテキストファイルに関連付けられるようにテキストファイルを作成することをお勧めします。テキストマイニング手法をテキストファイルに適用し、データを構造化するか、テキストファイルから使用される用語の頻度マトリックスを作成しますか?たとえば、テキストファイルは次のようになります。 I deployed ML algorithm in this project and... Skills: Java, Python, c++ ... これは私が「非構造化」、つまりすべてを1行の文字列に折りたたむことによって意味したものです。 このアプローチは間違っていますか?私のアプローチが間違っていると思われる場合は私を修正してください。 質問3:難しい部分は、キーワードを識別して抽出する方法です。tmRでパッケージを使用しますか?tm パッケージはどのアルゴリズムに基づいていますか?NLPアルゴリズムを使用する必要がありますか?はいの場合、どのアルゴリズムを調べる必要がありますか?ご覧になる良いリソースをいくつか教えてください。 どんなアイデアでも素晴らしいでしょう。


4
名前付きエンティティの認識のためのWord2Vec
Googleのword2vec実装を使用して、名前付きエンティティ認識システムを構築したいと考えています。構造を逆伝播する再帰的ニューラルネットは、名前付きエンティティ認識タスクに適していると聞きましたが、そのタイプのモデルに適した実装または適切なチュートリアルを見つけることができませんでした。非定型コーパスを使用しているため、NLTKなどの標準NERツールのパフォーマンスは非常に低く、独自のシステムをトレーニングする必要があるようです。 要するに、この種の問題に利用できるリソースは何ですか?利用可能な標準的な再帰ニューラルネットの実装はありますか?

3
NLPと機械学習のコミュニティがディープラーニングに関心を持っているのはなぜですか?
このトピックに関する質問がいくつかありますので、お役に立てば幸いです。私はディープラーニングの分野で初めての経験がありますが、いくつかのチュートリアルを行いましたが、概念を互いに関連付けたり区別したりすることはできません。

3
トランスフォーマーモデルの位置エンコーディングは何ですか?
私はMLを初めて使用するので、これが私の最初の質問です。私の質問が愚かであるとすみません。 私は紙を読んで理解しようとしています注意はあなたが必要なすべてであり、その中に写真があります: 位置エンコーディングが何であるかわかりません。いくつかのyoutubeビデオを聞いて、それは単語の意味と位置の両方を持つ埋め込みであり、sin(x)sin(x)sin(x)またはと関係があることがわかりましたcos(x)cos(x)cos(x) しかし、それが何であるのか、それがどの程度正確に行われているのか理解できませんでした。だから私はいくつかの助けのためにここにいます。前もって感謝します。

3
Word2Vecのより良い入力は何ですか?
これは、一般的なNLPの質問に似ています。Word2Vecを埋め込む単語をトレーニングするための適切な入力は何ですか?記事に属するすべての文は、コーパス内の別個の文書である必要がありますか?または、各記事はコーパス内のドキュメントである必要がありますか?これは、Pythonとgensimを使用した単なる例です。 文で分割されたコーパス: SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."], ["second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article."], ["second", "sentence", "of", "the", "second", "article."]] コーパスを記事ごとに分割: ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.", "second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article.", "second", …

3
GensimでFastText事前学習済みモデルを読み込むにはどうすればよいですか?
ここでFasttextモデルからfastText事前学習済みモデルをロードしようとしました。私はwiki.simple.enを使用しています from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) ただし、次のエラーが表示されます Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), encoding=encoding) File "P:\major_project\venv\lib\site-packages\gensim\utils.py", line 235, in any2unicode return unicode(text, encoding, errors=errors) UnicodeDecodeError: 'utf-8' codec can't decode byte …
21 nlp  gensim 

2
Word2vecモデルを使用して単語を予測する
「??ドアを開くと、自動的に加熱が開始されます」という文が与えられます。 ??で可能な単語のリストを取得したい 確率で。 word2vecモデルで使用される基本的な概念は、周囲のコンテキストが与えられた単語を「予測」することです。 モデルが構築されたら、新しい文に対して予測タスクを実行するための正しいコンテキストベクトル操作は何ですか? それは単なる線形和ですか? model.most_similar(positive=['When','I','open','the','door','it','starts' ,'heating','automatically'])

4
単語のセマンティックな類似性の尺度を取得するにはどうすればよいですか?
単語の意味的類似性を把握する最良の方法は何ですか?Word2Vecは大丈夫ですが、理想的ではありません。 # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to 'hot' than 'popular' In [9]: model.similarity('hot', 'popular') Out[9]: 0.33708479049537632 NLTKのWordnetメソッドはあきらめたようです: In [25]: …

3
初期キーワードに基づいて関連する単語のリストを増やす方法は?
最近、Googleスプレッドシートで利用できるクールな機能を見ました:「青」、「緑」、「黄」などの連続したセルにいくつかの関連キーワードを書くことから始め、同様のキーワードを自動的に生成します(この場合、他の色)。このYouTubeビデオで他の例を参照してください。 これを自分のプログラムで再現したいと思います。私はFreebaseを使用することを考えており、直感的には次のように機能します: Freebaseで指定された単語のリストを取得します。 彼らの「共通分母」を見つけ、これに基づいて距離メトリックを構築します。 元のキーワードとの「距離」に基づいて他の概念をランク付けします。 次に近い概念を表示します。 私はこの分野に詳しくないので、私の質問は次のとおりです。 これを行うためのより良い方法はありますか? 各ステップで使用できるツールは何ですか?

3
非公式テキスト上の名前付きエンティティ認識のデータセット
現在、ラベル付きデータセットを検索して、非公式テキスト(ツイートに似たもの)から名前付きエンティティを抽出するモデルをトレーニングしています。データセットのドキュメントには大文字と文法が欠けていることが多いため、今日の最先端のエンティティ認識システムの多くがそうであるニュース記事やジャーナルエントリよりも少し「非公式」なドメイン外データを探しています。訓練を受けた。 推奨事項はありますか?これまでのところ、私はここで公開されているツイッターから5万トークンを見つけることができました。
18 dataset  nlp 

4
メタデータでテキスト文書に注釈を付ける方法は?
多くのテキスト文書(自然言語、構造化されていない)がある場合、それらに何らかのセマンティックメタデータで注釈を付ける可能な方法は何ですか?たとえば、短いドキュメントを考えてみましょう。 I saw the company's manager last day. それから情報を抽出できるようにするには、追加データで注釈を付けてあいまいさを軽減する必要があります。このようなメタデータを見つけるプロセスは問題ではないため、手動で行われると想定します。問題は、これらのデータをさらに便利に/効率的に分析できるように、これらのデータをどのように保存するかです。 可能なアプローチはXMLタグを使用することです(以下を参照)が、冗長すぎるようで、テキストドキュメントにそのようなメタデータを保存するためのより良いアプローチ/ガイドラインがあるかもしれません。 <Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s manager <Time value="2014-5-29">last day</Time>.

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.