1
主流のスピーチモデルで、パーソナライズされたトレーニングステップが不要になるのはなぜですか?
Windows XP時代に戻って、Windows OSに組み込まれた音声/ディクテーションをセットアップするとき、音声プロファイルをカスタマイズするために、プログラムされた一連のテキストサンプルを音声文字変換エンジンに話さなければなりませんでした。 今日、SiriやCortanaなどのネットワーク化された音声テキスト変換エンジンを使用して、口述筆記を始めることができます。 テキストからスピーチへの変換の品質は同等に見えますが、私の記憶はその点で不完全かもしれません。 スピーチモデルは、トレーニングデータのパーソナライズの必要性を超えて進んでいますか?または、明示的なトレーニングウィザードを使用せずに、カバーの下でパーソナライズを行うだけですか?あるいは、たとえそれがまだ有益であるとしても(例えば、それが不便だから)、彼らは訓練をしませんか?