Gensim Word2Vec実装のエポック数


14

Word2Vec実装にiterパラメーターがありますgensim

クラスgensim.models.word2vec.Word2Vec(sentences = None、size = 100、alpha = 0.025、window = 5、min_count = 5、max_vocab_size = None、sample = 0、seed = 1、workers = 1、min_alpha = 0.0001、sg = 1、hs = 1、negative = 0、cbow_mean = 0、hashfxn =、iter = 1、null_word = 0、trim_rule = None、sorted_vocab = 1)

エポックの数を指定します。つまり、

iter =コーパス全体の反復数(エポック)。

それがコーパス全体でモデルを改善するのに役立つかどうか誰か知っていますか?

iterデフォルトで1に設定されている理由はありますか?いいえを増やすことにはあまり効果はありません。エポックの?

いいえを設定する方法についての科学的/経験的評価はありますか?エポックの?

分類/回帰タスクとは異なり、ベクトルは監視されていない方法で生成され、目的関数は単純に階層型ソフトマックスまたは負のサンプリングのいずれかであるため、グリッド検索方法は実際には機能しません。

いいえを短縮するための早期停止メカニズムはありますか?ベクトルが収束した時点のエポックの数 また、階層的なソフトマックスまたは負のサンプリング目標は収束できますか?

回答:


5

エポックの数を増やすと、通常、単語表現の品質が向上します。実験では、エポックを5ではなく15に設定して、テキスト分類の機能として単語の埋め込みを使用することを目標としてパフォーマンスを向上させました。


2

私はここを見て、デフォルト値が1から5に変わったことを発見しました。どうやら著者は、より多くのエポックが結果を改善すると信じています

まだ経験からはわかりません。


1

反復回数(エポック数)を増やすと、トレーニング時間が大幅に増加します。Word2Vecは、大量のドキュメントをフィードした場合にのみ高品質の結果を提供します。そのため、結果として得られる単語の埋め込みが実際には正確になりますが、ドキュメントを2回ループすることは合理的ではありません。


1

私はGoogleニュース300で[2、10、100]エポックについてw2vモデルをトレーニングしましたが、最高のエポックは10エポックでした。しばらく待った後、100エポックが悪いことにショックを受けました。

epoch   wall                    
------ ------                    
2       56 s                    
10      4m 44s (284s)           
100     47m 27s (2847 s)    
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.