回答:
これが最近学んだことです。
もちろん、テキスト生成RNNについて話すときは、RNN言語モデルについて話します。尋ねるときの単語/文字ベースのテキスト生成のRNN、我々はについて尋ねている単語/文字ベースの RNNの言語モデル(LM)。
単語ベースの LM は、文字ベースの LM よりも高い精度と低い計算コストを示します。
これは、charベースのRNN LMが長期的な依存関係を正常にモデル化するために、より大きな隠れ層を必要とするためです。これは、計算コストが高くなることを意味します。
したがって、我々はそれを言うことができます
ただし、charベースの RNN LMは、Finish、Turkish、Russianなどの豊富な形態の言語をよりよくモデル化します。単語ベースの RNN LMを使用してそのような言語をモデル化することは、可能であれば困難であり、推奨されません。
上記の分析は、charベースの RNN によって生成された出力テキストを見るときに特に意味があります。
投資家の驚きは、資金を調達するつもりはなかった。私は、すべてがすぐに興味深いものである会社ではありません。同じプログラマーを降りる必要はありません。
13文字のウィンドウを持つ単純な文字ベースの最尤LMはこれを実現しますが:
そして、彼女が多くの固体レンガを作ったとき。彼はそれらを山に積み上げ、彼女の足を踏みつけました。医者は彼をコウモリと診断しました。少女と彼氏は彼女に尋ねた。
もちろん私の例を(実際には、ほとんどのML LM例は、より良い任意のRNN生成されたテキストよりも見えた私がこれまで読んだ)桜は-拾い、この小さなML LMは、シンプルなコーパスで訓練を受けましたが、あなたのアイデアを得る:簡単な条件付き確率は良く生成しますはるかに複雑な文字ベースの RNN よりもテキスト。
文字ベースの RNN LMは、幅広い言語の文法的に正しいシーケンスを模倣し、より大きな隠れ層とより高い計算コストを必要としますが、単語ベースの RNN LMはより高速にトレーニングし、より一貫性のあるテキストを生成しますが、これらの生成されたテキストでさえ実際の意味を成していません。
10億語の言語モデリングに関する素晴らしい記事があります。以下に抜粋を示します。
単語レベルのモデルには、文字レベルのモデルよりも重要な利点があります。
例として次のシーケンスを取り上げます(ロバートA.ハインラインからの引用):
早起きは進歩していません。それは怠menな男性が何かをするもっと簡単な方法を見つけようとすることによって作られました。
トークン化後、単語レベルのモデルでは、このシーケンスに22個のトークンが含まれていると見なされる場合があります。一方、キャラクターレベルでは、このシーケンスに102個のトークンが含まれていると見なされます。この長いシーケンスは、より多くの時間ステップでより多くのトークン間の依存関係を考慮する必要があるため、文字モデルのタスクを単語モデルよりも難しくします。文字言語モデルの別の問題は、構文、セマンティクスなどに加えてスペルを学習する必要があることです。いずれの場合でも、通常、単語言語モデルは文字モデルよりもエラーが少なくなります
単語言語モデルに対するキャラクターの主な利点は、語彙が非常に少ないことです。たとえば、GBWデータセットには、800,000ワードと比較して約800文字が含まれます(低頻度トークンのプルーニング後)。実際には、これは、文字モデルが必要とするメモリが少なく、対応する単語モデルよりも高速に推論されることを意味します。別の利点は、前処理ステップとしてトークン化を必要としないことです。