センチメント分析に段落ベクトルを使用した最新のパフォーマンスが報告されていますか？

LeとMikolovによるICML 2014の論文「Sentences and Documentsの分散表現」の結果に感銘を受けました。「パラグラフベクトル」と呼ばれる彼らが説明する技術は、word2vecモデルの拡張に基づいて、任意の長さのパラグラフ/ドキュメントの教師なし表現を学習します。この技術は、この手法を使用したセンチメント分析に関する最新のパフォーマンスを報告しています。

従来のバッグオブワード表現に代わるものとして、他のテキスト分類問題でこの手法を評価したいと考えていました。しかし、私はword2vec Googleグループのスレッドで2番目の著者の投稿を見つけて、一時停止しました。

夏の間にQuocの結果を再現しようとしました。IMDBデータセットのエラー率は、約9.4％〜10％に達する可能性があります（テキストの正規化の程度によって異なります）。しかし、Quocの論文での報告に近いものは得られませんでした（7.4％のエラー、これは大きな違いです）...もちろん、Quocにコードについて尋ねました。彼はそれを公開すると約束したが、今のところ何も起こっていない。... Quocの結果は実際には再現性がないと考え始めています。

これらの結果を再現することに成功した人はいますか？

— ブスカッグス
ソース

この状況はまだ変わっていますか？Gensimがdoc2vec（段落/文書ベクトル）のバージョンを実装していることを知っています。radimrehurek.com/ gensim / models / doc2vec.htmlを参照してください。ただし、ここで引用した論文の結果を再現する試みはありません。

— Doctorambient

はい、gensimを使用して論文の結果を再現しようとしました：doc2vec IPython Notebookを参照してください。

— -Radim

http://arxiv.org/abs/1412.5335の脚注（著者の1人はTomas Mikolov）

私たちの実験では、（Le＆Mikolov、2014）の結果と一致するように、負のサンプリングの代わりに階層的なソフトマックスを使用するというQuoc Leの提案に従いました。ただし、これは、トレーニングデータとテストデータがシャッフルされない場合にのみ、92.6％の精度結果を生成します。したがって、この結果は無効であると考えます。

— ミハイル・コロボフ
ソース

「シャッフルしない」==>無効な理由がわかりません。トレイン/テストセット間に明確に定義された分割はありませんか？トレーニング/テストとは、（元の）データセットをシャッフルする方法に依存しますか？テストセットの順序は重要ではありません（動的評価はありませんよね？）。そして、トレーニングセットの順序すべきではない問題で多くの、いずれか...

— capybaralet

@ user2429920違いが生じている場合は、順序がどういうわけか重要です。

— -JAB