タグ付けされた質問 「gensim」

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
GensimでFastText事前学習済みモデルを読み込むにはどうすればよいですか?
ここでFasttextモデルからfastText事前学習済みモデルをロードしようとしました。私はwiki.simple.enを使用しています from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) ただし、次のエラーが表示されます Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), encoding=encoding) File "P:\major_project\venv\lib\site-packages\gensim\utils.py", line 235, in any2unicode return unicode(text, encoding, errors=errors) UnicodeDecodeError: 'utf-8' codec can't decode byte …
21 nlp  gensim 

4
Gensim Word2Vec実装のエポック数
Word2Vec実装にiterパラメーターがありますgensim クラスgensim.models.word2vec.Word2Vec(sentences = None、size = 100、alpha = 0.025、window = 5、min_count = 5、max_vocab_size = None、sample = 0、seed = 1、workers = 1、min_alpha = 0.0001、sg = 1、hs = 1、negative = 0、cbow_mean = 0、hashfxn =、iter = 1、null_word = 0、trim_rule = None、sorted_vocab = 1) エポックの数を指定します。つまり、 iter =コーパス全体の反復数(エポック)。 それがコーパス全体でモデルを改善するのに役立つかどうか誰か知っていますか? がiterデフォルトで1に設定されている理由はありますか?いいえを増やすことにはあまり効果はありません。エポックの? いいえを設定する方法についての科学的/経験的評価はありますか?エポックの? 分類/回帰タスクとは異なり、ベクトルは監視されていない方法で生成され、目的関数は単純に階層型ソフトマックスまたは負のサンプリングのいずれかであるため、グリッド検索方法は実際には機能しません。 いいえを短縮するための早期停止メカニズムはありますか?ベクトルが収束した時点のエポックの数 また、階層的なソフトマックスまたは負のサンプリング目標は収束できますか?

3
Doc2vec(gensim)-目に見えない文章のラベルを推測するにはどうすればよいですか?
https://radimrehurek.com/gensim/models/doc2vec.html たとえば、doc2vecを次のようにトレーニングした場合 「aaaaaAAAAAaaaaaa」-「ラベル1」 「bbbbbbBBBBBbbbb」-「ラベル2」 Doc2vecを使用して「aaaaAAAAaaaaAA」がラベル1であると推測できますか? Doc2vecは単語ベクトルとラベルベクトルをトレーニングできることを知っています。このベクトルを使用して、どのラベルの目に見えない文(訓練された単語の組み合わせ)を推測できますか?
13 gensim 

4
事前に訓練されたモデルの重みで新しいword2vecモデルを初期化する方法は?
word2vectorモデルの使用とトレーニングにPythonのGensimライブラリを使用しています。最近、(GoogleNewDataset事前学習済みモデル)などの事前学習済みのword2vecモデルでモデルの重みを初期化することを検討していました。私は数週間それと格闘してきました。さて、私はgesimに、事前に訓練されたモデルの重みでモデルの重みを初期化するのに役立つ関数があることを調べました。以下に説明します。 reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. この関数で同じことができるかどうかはわかりません。助けてください!!!
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.