前回の質問のフォローアップとして、音声検出ライブラリが存在するかどうか疑問に思っていました。音声検出とは、音声バッファを渡し、音声の開始と停止のインデックスを取得することを意味します。したがって、44kHzで10秒間のオーディオサンプリングがある場合、次のような数値の配列が期待されます。
44000
88000
123000
190334
...
これは、たとえば、スピーチが1秒で始まり、2秒で終わることなどを示します。
私が探していないのは、話し言葉からテキストを書き出す音声認識です。残念ながら、これは「音声検出」をグーグルで検索したときによく見られるものです。
ライブラリがC、C ++、またはObjective-Cで作成されていれば、iPhone用のアプリを作成しているので素晴らしいことです。
ありがとう!