主流のスピーチモデルで、パーソナライズされたトレーニングステップが不要になるのはなぜですか?


7

Windows XP時代に戻って、Windows OSに組み込まれた音声/ディクテーションをセットアップするとき、音声プロファイルをカスタマイズするために、プログラムされた一連のテキストサンプルを音声文字変換エンジンに話さなければなりませんでした。

今日、SiriやCortanaなどのネットワーク化された音声テキスト変換エンジンを使用して、口述筆記を始めることができます。

テキストからスピーチへの変換の品質は同等に見えますが、私の記憶はその点で不完全かもしれません。

スピーチモデルは、トレーニングデータのパーソナライズの必要性を超えて進んでいますか?または、明示的なトレーニングウィザードを使用せずに、カバーの下でパーソナライズを行うだけですか?あるいは、たとえそれまだ有益であるとしても(例えば、それが不便だから)、彼らは訓練をしませんか?

回答:


4

スピーチモデルは、トレーニングデータのパーソナライズの必要性を超えて進んでいますか?

精度を大幅に向上させる2つの側面がありました。

  1. ディープラーニングとニューラルネットワークにより、精度が大幅に向上しました。
  2. 大手企業が使用するトレーニングデータの量は、桁違いに長年にわたって増加しています。企業は非常に多くのデータを収集したため、適応の効果は減少しました。

または、明示的なトレーニングウィザードを使用せずに、カバーの下でパーソナライズを行うだけですか?

通常は小さな適応が行われていますが、実際には非常にわずかです。それは基本的にあなたの声をいくつかのベースラインの声と照合し、類似性のベクトルを生成し、次にこのベクトルはリアルタイムで使用され、ニューラルネットワーク入力を調整します(いわゆるi-ベクトル適応)。この種の適応は非常に速く、2〜3秒のスピーチから適応できます。あなたが読むことができる技術的な詳細については

https://www.microsoft.com/en-us/research/uploads/prod/2018/04/ICASSP2018_CortanaAdapt.pdf

または、たとえ有益であっても(たとえば、不便なため)、トレーニングを行わないのですか?

適応が有益である場合もありますが、ここにも複数の側面があります。

  1. 適応せずにうまくいきます。
  2. ニューラルネットワークの認識は、実際には適応に適合しません。大きなニューラルネットワークをトレーニングするには、多くのGPUノードが必要です。後で調整するのは非常に困難です。アダプテーションデータで小さなレイヤーを調整できますが、ニューラルネットワークがかなり緊密に結びついているため、通常は効果が小さく、再トレーニングせずにビットを単に変更することはできません。
  3. 上記で述べたように、トレーニングデータの量は非常に多いため、カスタムデータはおそらくトレーニングセットにすでに含まれており、適応はあまり役に立ちません
  4. 適応も害を及ぼす可能性があります。あなたのスピーチが、バックグラウンドからの異常な亀裂やビープ音、またはそれに適応した音楽やシステムのようなものを想像してください。次に、実際の正常な音声を、適応していないシステムよりも低い精度で実際にデコードします。
  5. 適応はユーザーにとってあまり便利ではありません。なぜシステムを使い始めることができるのに、なぜ適応する必要があるのですか?

したがって、システム設計は「それが機能するだけ」に移行し、それは良い方向性です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.