LeとMikolovによるICML 2014の論文「Sentences and Documentsの分散表現」の結果に感銘を受けました。「パラグラフベクトル」と呼ばれる彼らが説明する技術は、word2vecモデルの拡張に基づいて、任意の長さのパラグラフ/ドキュメントの教師なし表現を学習します。この技術は、この手法を使用したセンチメント分析に関する最新のパフォーマンスを報告しています。
従来のバッグオブワード表現に代わるものとして、他のテキスト分類問題でこの手法を評価したいと考えていました。しかし、私はword2vec Googleグループのスレッドで2番目の著者の投稿を見つけて、一時停止しました。
夏の間にQuocの結果を再現しようとしました。IMDBデータセットのエラー率は、約9.4%〜10%に達する可能性があります(テキストの正規化の程度によって異なります)。しかし、Quocの論文での報告に近いものは得られませんでした(7.4%のエラー、これは大きな違いです)...もちろん、Quocにコードについて尋ねました。彼はそれを公開すると約束したが、今のところ何も起こっていない。... Quocの結果は実際には再現性がないと考え始めています。
これらの結果を再現することに成功した人はいますか?