BERTは次の単語予測タスクを実行できますか？

BERTは双方向（双方向トランスフォーマーを使用）なので、次の単語予測タスクに使用できますか？はいの場合、何を調整する必要がありますか？

neural-network deep-learning attention-mechanism transformer bert

元の出版物を見ましたか？セクション3.3.2で説明されているように、文レベルで予測を扱っているようです。

— mapto

BERTは、少なくともマスクされた言語モデリングに関する研究の現在の状態では、次の単語の予測に使用できません。

BERTはマスクされた言語モデリングタスクでトレーニングされているため、「次の単語を予測」することはできません。単語をマスクし、残りの文（マスクされた単語の左側と右側の両方）を考慮して、BERTにその単語を予測するように依頼することができます。

このように、BERTを使用すると、通常の自己回帰言語モデルのようにテキストをサンプリングできません。ただし、BERTはマルコフランダムフィールド言語モデルと見なすことができ、テキスト生成などに使用できます。詳細については、記事「BERTには口があり、話す必要がある：BERTをマルコフ確率場言語モデルとして使用する」を参照してください。著者は、ソースコードとGoogle Colabノートブックをリリースしました。

更新：MRF記事の作成者は、分析に欠陥があり、BERTはMRFではないことを発見しました。これを参照してください

— ncasas
ソース

結果はあまり成熟していないように見えます:(

— Itachi

マスクをシーケンスの最後の単語になるように制御できないのはなぜですか？次に、BERTを使用して、マスクされたトークン（次の単語）に基づいて予測します。私はまだこれらの結果を消化しているので、実装方法をガイドできません。それでも、もっともらしいアプローチのようです。

— スレッジ

これは、BERTがリリースされた後のいくつかのTwitterディスカッションで誰かが試したところ、@ Sledgeが説明しているアプローチでBERTが失敗したことを確認しました。予測を実行するために必要な文の右側の部分を使用する。

— ncasas

わかりました、@ ncasasは説明に感謝します。

— スレッジ