YouTubeに動画をアップロードせずにGoogleのYouTube音声認識を使用する方法


15

字幕が欲しいレクチャービデオコンテンツがたくさんあります。YouTubeは、特定の条件下でビデオの字幕を自動的に生成します(これらの条件は、いまだに謎です)。

この音声認識技術をYouTube外で使用できるようにしたいと思います。トランスクリプトを取得するためだけにすべてのビデオをアップロードしたくはありません(時間がかかりすぎます)。さらに、約30分(ほとんどの場合)よりも長いビデオに対してYouTubeがそれを行うとは思いません。非公開のリストに掲載されている動画に対してはそれが行われるとは思わない(これは販売することを意図したプレミアムコンテンツであるため問題です)。

完璧なシナリオ:デスクトップから実行してこれらのビデオからトランスクリプトを取得できるプログラムがあり、YouTubeと同等またはそれ以上の品質で、SRTまたはYouTubeが生成するXMLに似たタイムコードを持っています[ How to YouTube字幕を取得する ]。

受け入れられるシナリオ:プライベートまたはパブリックに設定されているかどうかにかかわらず、YouTubeに強制的に動画を転記させるためにできるいくつかのトリックがあります。

実行可能なシナリオ:自分のプログラムをコーディングするために使用できるライブラリーまたは何かがあります。私はC#が得意で、C ++でも大丈夫です(しかし、私は本当にC#が好きです)。


2
リンクアップに感謝-聴覚障害の観点から、これがどのように機能するかを聞くことに非常に興味を持っています...
studiohack

@studiohackしゃれは意図されていません。
287352 14年

笑、私もそれを認識していませんでした!:P
studiohack

回答:


10

Googleは、Web Speech API(音声認識と合成の両方)をChromeに実装しました。これは、開発者であれば使用できます。これは、YouTubeが一部の動画で字幕を生成するために使用するものです。たぶん、あなたはそれと対話するコードを見つけるでしょう。

データフローはおそらく次のようになります。

ビデオファイル=>音声の抽出と変換=> Google APIへの送信=>テキストの取得=> SRTへの書き込み。

編集:公式のAPIページはW3C仕様以外にはないようです。他のリンクは次のとおりです。

これらの例は、Chrome内からAPIを使用することに関するものですが、Googleのオンライン音声認識エンジンに直接問い合わせることができます。たとえば、Raspberrry Piの音声認識パーソナルアシスタントであるJasperでは、音声認識エンジンとしてGoogle選択できます。


ありがとうございました!私は確かにこれを試してみます。(処理時間を除いて)迅速に実行できる場合、これを製品に実装できます。なんという恩恵でしょう。
287352

APIのもう1つの原因は、NodeWebkit環境かもしれない
ジョン・ドヴォルザーク

1

これを正確に行う「autosub」(githubのagermanidis / autosubを参照)というツールがありますが、古いGoogle Speech APIを使用しています。このツールはffmpegを使用してオーディオをFLACファイルにストリップし、FLACファイルをトランスクリプションのためにGoogleに送信します。SRTまたはVTTファイルを生成します。

一部は古いGoogle APIのために精度が低くなっています。より新しいAPI(https://cloud.google.com/speech/docs/apisの「Cloud Speech REST API」)があります。このAPIは非常にシンプルであり、ある時点で、autosubをforkしてそれを使用するつもりでした。

別の方法は、キャプションが完了したらYouTubeにアップロードしてVTTファイルをダウンロードすることです。これに伴う問題は、YouTubeが文などではなく、非常にきめの細かいキャプション(例:単語)を生成することです。これにより、手動スキャンを行うときにキャプションを確認することが難しくなります。


1

最も簡単な方法は、Googleドキュメントにアクセスし、新しいテキストドキュメントを開き、ツールから「ボイスタイピング」を選択して、テープを再生することです。はい。とても簡単です!(および複数の言語をサポート)

それ以外の場合、次のようなHTML5のローカルWebページを使用できます。https : //www.labnol.org/software/add-speech-recognition-to-website/19989/

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.