自動読み上げ:話しているビデオに基づいて、誰かが言っていることを推測する


7

一部の人間は、かなり上手に口読みをすることができます。話している誰かを見ると、話者が言っていることを(スピーチを聞いていなくても)知ることができます。

読唇用のコンピュータソフトウェアを作成する作業はありましたか?言い換えると、誰かが話しているビデオが与えられた場合、その人が言っていることを推測するソフトウェアを構築することは可能ですか(オーディオなしでビデオストリームにのみアクセスできます)?この問題、または展開されたシステムについての調査はありましたか?

背景と動機:米国では、特定の法律が同意なしに音声を録音することを禁止している場合があります。ただし、一般に、録画する人の同意なしにビデオを録画することは禁止されていません。(だからこそ、あちこちに監視カメラがあり、ビデオだけを記録し、音声は記録しないのです。)ビデオだけで、自動化された方法で人々が言っ​​ていることを伝えることができるかもしれないほどテクノロジーが進歩したのかどうか知りたいです。 -またはそれが近い将来実現可能になるかどうか。そして、プライバシーへの影響は別として、そのようなテクノロジーはかなり役立つかもしれません。

回答:


3

その領域にはいくつかの作業があるようです。たとえば、この論文とその中の参考文献を参照してください。YouTubeに実装されたシステムのデモもあります。たとえば、このビデオを参照してください


2

ここにいくつかの最近の仕事があります:

LipNet:文レベルの読唇術。ヤニスM.アサエル、ブレンダンシリングフォード、シモンホワイトソン、ナンドデフレイタス。

経験豊富な人間のリプリーダーの52%の精度と比較して、3秒間のビデオのコーパスで93%の精度を達成しています。彼らは持っているビデオ、その結果をデモを。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.