タグ付けされた質問 「speech-recognition」

1
主流のスピーチモデルで、パーソナライズされたトレーニングステップが不要になるのはなぜですか?
Windows XP時代に戻って、Windows OSに組み込まれた音声/ディクテーションをセットアップするとき、音声プロファイルをカスタマイズするために、プログラムされた一連のテキストサンプルを音声文字変換エンジンに話さなければなりませんでした。 今日、SiriやCortanaなどのネットワーク化された音声テキスト変換エンジンを使用して、口述筆記を始めることができます。 テキストからスピーチへの変換の品質は同等に見えますが、私の記憶はその点で不完全かもしれません。 スピーチモデルは、トレーニングデータのパーソナライズの必要性を超えて進んでいますか?または、明示的なトレーニングウィザードを使用せずに、カバーの下でパーソナライズを行うだけですか?あるいは、たとえそれがまだ有益であるとしても(例えば、それが不便だから)、彼らは訓練をしませんか?

2
問題がマルコフ特性を満たさないように思われる場合、HMMが音声認識に適しているのはなぜですか
私はHMMとそのアプリケーションについて学び、それらの使用法を理解しようとしています。私の知識は少しむらがあるので、私がしている誤った仮定を修正してください。私が不思議に思っている具体的な例は、音声検出にHMMを使用する場合です。これは、文献では一般的な例です。 基本的な方法は、着信音(処理後)を観測値として扱うことであり、実際に話されている単語はプロセスの隠れた状態です。ここにある隠し変数が独立していないことは明らかなようですが、Markovプロパティをどのように満たすかはわかりません。N番目の単語の確率は、N-1単語だけでなく、その前の多くの先行単語にも依存していると思います。 HMMは音声検出の問題を正しくモデリングするのに非常に優れているため、これは単純化の前提として単に無視されますか、それともプロセスの状態と非表示の変数が何であるかを明確に理解していませんか?同じ問題は、HMMが非常に普及している多くのアプリケーションやPOSタグ付けなどに当てはまるようです。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.