タグ付けされた質問 「nltk」

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
単語のセマンティックな類似性の尺度を取得するにはどうすればよいですか?
単語の意味的類似性を把握する最良の方法は何ですか?Word2Vecは大丈夫ですが、理想的ではありません。 # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to 'hot' than 'popular' In [9]: model.similarity('hot', 'popular') Out[9]: 0.33708479049537632 NLTKのWordnetメソッドはあきらめたようです: In [25]: …

4
2つの単語の類似性
2つの単語または文の類似性を識別するのに役立つPythonライブラリを探しています。 私は音声からテキストへの変換を行って、英語の辞書または辞書にない単語を作成します(これは人名または会社名の場合があります)その後、既知の単語と比較する必要があります。 例: オーディオ結果への1)テキスト:アメリカの拡張を呼び出すためのおかげ と比較されますアメリカンエクスプレス。 両方の文は何らかの形で似ていますが、同じではありません。 共有する文字数を調べる必要があるようです。どんなアイデアも素晴らしいでしょう。Google検索の「あなたが言った」機能のような機能に見えます。
15 nlp  nltk 


1
NLTKによる複雑なチャンク
私は、NLTKブックの第7章に従って、NLTKのカスケードチャンカーの使用方法を理解しようとしています。残念ながら、重要なチャンク対策を実行するときにいくつかの問題が発生します。 このフレーズから始めましょう: "adventure movies between 2000 and 2015 featuring performances by daniel craig" 次の文法を使用すると、関連するすべてのNPを見つけることができます。 grammar = "NP: {<DT>?<JJ>*<NN.*>+}" ただし、NLTKを使用してネストされた構造を構築する方法がわかりません。この本は次の形式を示していますが、明らかにいくつか欠けているものがあります(たとえば、実際に複数のルールをどのように指定するのですか?): grammar = r""" NP: {<DT|JJ|NN.*>+} # Chunk sequences of DT, JJ, NN PP: {<IN><NP>} # Chunk prepositions followed by NP VP: {<VB.*><NP|PP|CLAUSE>+$} # Chunk verbs and their arguments CLAUSE: {<NP><VP>} # …
8 python  nlp  nltk 

6
NLP:マルチワードトークン化によく使用されるパッケージは何ですか?
いくつかの職務説明テキストをトークン化するつもりです。空白を区切り文字として使用して、標準のトークン化を試しました。しかし、空白で分割された複数の単語の表現がいくつかあり、それが後の処理で精度の問題を引き起こす可能性があることに気付きました。だから私はこれらのテキストで最も興味深い/有益なコロケーションをすべて取得したいと思います。 特定のプログラミング言語に関係なく、複数単語のトークン化を行うための優れたパッケージはありますか?たとえば、「彼は情報技術を研究しています」===>「彼」「研究」「情報技術」。 NLTK(Python)にはいくつかの関連機能があることに気づきました。 collocationsモジュール:http : //www.nltk.org/api/nltk.html#module-nltk.collocations nltk.tokenize.mweモジュール:http ://www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.mwe これら2つの違いは何ですか? nltk.tokenize.mweモジュールのMWETokenizerクラスは、私の目的に向かって機能しているようです。ただし、MWETokenizerでは、複数の単語の式を追加するために、その構築メソッドと.add_mweメソッドを使用する必要があるようです。これを達成するために外部のマルチワード式レキシコンを使用する方法はありますか?もしそうなら、マルチワードの辞書はありますか? ありがとう!
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.