Google Speech APIのトルコ語音声認識(speech-> text)?[閉まっている]


7

GoogleのSpeech APIには、複数の言語で音声読み上げ機能があります。トルコ語にも対応しています。その言語は非常に興味深く、それはいわゆる膠着的です。英語のような言語では、前置詞やその他の部分の代わりに単語の部分を次々と貼り付けます。これはかなり無制限のサイズの語彙につながります。

GoogleがAPIにトルコ語の音声認識をどのように実装したか知っていますか?彼らが英語と同じテクニックを使用したとは信じられません。

更新

以下は、YouTubeの次のクリップからGoogle APIが返したトランスクリプトの例です。

あなたは彼に尋ねる必要があります私は手掛かりがありませんYahooは私が本当にトルーマンショーでジュマンジにいるアダムスコットだったと答えましたどちらの映画にも出演していないので聞いてくれると信じてください。

転写の質が良いと思います。私は美しいAudioEngineモニターを使用し、その前に20歳の古臭いLabTecコンピューターマイクを置きました。本当にアマチュアのセットアップですが、それがこれらのものが実際に使用される方法です。つまり、理想的な状況ではありません。

以下はトルコの映画シーンの例です。

merhaba Temmuz Ben ho Ben geldin kardinkardinıenasılsınızkeyifler iyidirinşallahİyivallakoşturuyoruznasılolsun Hemkardeşlafıuzatmadan konuya girsek bilatinierniğrıribiiğiernrırierniernierniernrırierniğiernrıriernierniernierniernrıgiernierniıri Tabigiernrıerni

これは基本的に理解できません。あちこちで単語を拾いますが、英語の例と違ってつなぐのは難しいです。

これは、Googleがトルコ語のカスタムソリューションを使用していないことを意味しますか?多分彼らは彼らの英語エンジンをトルコ語に転用したいですか?

楽しみのために、アゼリ語話者からクリップを送った。彼のスピーチははっきりと発音されていますが、APIはほとんど語っていません。私はトルコ語の設定を使用したので、実際には公平ではありませんが、言語は類似しています:

oakşamÇağlayanDoruk sevgilin kim bu kimbaktıBülentSerttaşçokpis


2
Google Scholarの検索scholar.google.com/…は、トルコ語の特徴を具体的に扱っているものはあまり明らかにしていませんが、機械学習を使用した言語に依存しない音声認識に関する多くの記事が検索に隠されています。グーグルが音素を無知に抽出する技術と、それを特定の言語に書き写す方法を組み合わせたのはもっともらしい。
Sycoraxは

2
ここでは、Linguistics.SE、特に音声認識タグの方が役立つ場合があります。
ステファンコラサ

3
(+1)ここにも潜在的に興味深い社会学的問題があります。私の事例の経験では、トルコのエンジニア/研究者は、業界の主要な機械学習音声認識チームの多くでかなり過大評価されています。
枢機卿、

1
音声認識のためにさまざまなAPIの単語エラー率を比較する場合:github.com/Franck-Dernoncourt/ASR_benchmark
Franck Dernoncourt

回答:


3

生産で使用されるものは、しばしば開示されません。現在の自動音声認識(ASR)システムがどのように運用されているかをGoogleが開示していることは知りません。これを概算する1つの方法は、ICASSP / Interspeech / etcをスキャンすることです。Googleの出版物に関する手続き。

とにかく、Googleを脇に置いておきます。質問は、「大規模な、またはオープンエンドの辞書を使用する言語でASRを実行する方法?」として一般化できます。

そのための1つの方法は、たとえば{1}からのサブワード言語モデリング使用することです。

要約:この研究では、トルコ語のような膠着言語用に開発された自動音声認識(ASR)システムの語彙外(OOV)単語問題のいくつかの解決策を検討し、この問題の改善を提案します。サブワード言語モデルを使用すると、複雑な形態を持つ言語でOOVワード比を減らすことにより、ワードベースのモデルよりもパフォーマンスが向上することが示されています。

または{2}から:

要約:トルコの音声認識研究は最近加速しています。これらの取り組みにより、認識実験に利用できる音声・テキストコーパスだけでなく、精度向上のための新たな手法の提案も増えています。トルコ語の膠着性は、大語彙連続音声認識(LVCSR)タスクで語彙(OOV)の問題を引き起こします。OOV問題を克服するために、サブワード単位の使用が提案されています。LVCSR実験に加えて、放射線医学などの限られた領域で音声認識機能を実装するための取り組みがいくつかあります。本稿では、最近の研究を活用して開発されたトルコ語音声認識ソフトウェアを紹介します。2つの異なるテストセットにおけるソフトウェアのインターフェイスと認識精度の両方をまとめます。ソフトウェアのパフォーマンスは、放射線医学および大規模な語彙テストセットを使用して評価されています。OOV問題を実際に解決するために、頻繁な単語や文を使用して言語モデルを適応させることを提案します。認識実験では、90%と44%の単語精度が、放射線医学と大規模な語彙テストセットでそれぞれ達成されました。


参照:


これは興味深いです、おかげで、参考文献を見ていきます
Aksakal
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.