ゲームで何らかのイベントが発生した場合、プレーヤーがオーディオをそのイベントに適切に関連付ける(遅延を認識しない)オーディオ生成の最大遅延はどれくらいですか?
ゲームで何らかのイベントが発生した場合、プレーヤーがオーディオをそのイベントに適切に関連付ける(遅延を認識しない)オーディオ生成の最大遅延はどれくらいですか?
回答:
以下の結果は、「最も顕著なa / v同期エラー」とみなされるリップ同期について計算されます。
ウィキペディアによると
テレビアプリケーションの場合、オーディオはビデオを15ミリ秒以内にリードし、オーディオはビデオを45ミリ秒以内に遅らせる必要があります。フィルムの場合、許容できるリップシンクは、どちらの方向でも22ミリ秒以下と見なされます。
Media and Acoustics Perception Labによると
実験の結果、a / v同期検出の平均オーディオ先行しきい値は185.19ミリ秒であり、標準偏差は42.32ミリ秒であることが判明しました。
ATSCによると
一見緩いように見えます:「許容範囲のウィンドウ」として+90ミリ秒から-185ミリ秒
そして
- -100ミリ秒から+25ミリ秒まで検出不可
- -125 msおよび+45 msで検出可能
- -185ミリ秒および+90ミリ秒で受け入れられなくなる
(–サウンド遅延、+サウンドアドバンス)
結論する
結果はそれほど遠くありません。最大許容遅延は約150ミリ秒で、60フレーム/秒で9フレームであるようです。
たとえば、あなたが見たり聞いたりする爆発は、単一のイベントであると感じ、他の回答で説明されている許容値を持ちます。最大50msです。一部の人々はより敏感かもしれません(ミュージシャンなど)ので、30msまたは60fpsで2フレーム以下を目指すことをお勧めします。
私は、知覚距離がこれらの許容範囲に影響を与えると考えています。実際の生活では、音は距離の各フィートあたり約1ms遅れるので、人々は遠くの音がわずかに遅れることを期待しています。そのため、ズームアウトされたRTSゲームの「マップ」の爆発は、FPSで自分の銃を発射するプレイヤーよりも音の遅れに対する許容度が大きくなる可能性があります。
音楽/リズムゲームに適切な感触があるなどの特殊なケースでは、15〜20ミリ秒またはそれ以下の厳しい許容誤差が必要になる場合があります。たとえば、マイクに向かって歌ったり、プラスチック製の楽器、および同じイベントに対してシステムによって生成されたサウンドの場合、50ミリ秒の遅延により、「オリジナル」と「再生」のサウンドが奇妙に混ざります。
さらに、オーディオファイルの開始とそのオーディオファイル内の「イベント」との間の遅れに注意してください。多くのオーディオクリップでは、「イベント」が端に正しくないため、雷の音がすることがあります開始から200ms後に「ストライク」が発生するストライクは誰にとっても明らかであり、ほとんどすべてのサウンドファイル(ドラムヒットであっても)には遅延があります。
視力と聴覚は人間の知覚に深く関係しており、そのうちの1つが他の音と比べてst音がする場合、知覚されます。ほとんどの場合、非常に高速ですが、ロード中に0.2秒の遅延が発生することはありません。人々はそのような状況に気付くでしょう。これが、オーディオがしばしば別のスレッドで実行され続け、他のアクティビティから隔離され、プリロードされたクリップが再生されるべきであるという迅速な通知を得る理由です。
プレーヤーが音を発生させる状況(音楽ゲーム、FPSの銃)は、プレーヤーがその瞬間にそれを実現するためにインパルスを送信しているため、非常に低い遅延が必要になります。非常に小さな遅延の。サウンドエンジニアは、「グルーブ」を台無しにする5ミリ秒未満の録音遅延について心配しています。
Journal of the American Academy of Audiologyでは 、人々(ミュージシャンだけでなく)が遅れて自分の声を聞いているとき、3ミリ秒という短い遅延を認識しており、10ミリ秒を超える遅延は90%の時間に不快であると述べています。
人間は、方向情報のために耳と耳の間の時間遅延を使用するため、1mSec未満の遅延から情報を処理および抽出できる必要があります。
上記の185.19ミリ秒は、主要なサウンドエラーを指しているので、とにかく、ゲームに積極的に関与せず、映画を受動的に見るときに受け入れられるものを指しているため、無関係です。
ここで受け入れられている回答は、主に受動的にビデオを視聴する際のオーディオ同期の知覚について説明しています。これらの場合、視聴者は、ビデオ内のはっきりとした兆候に注意を向けない限り、オーディオを再生すべき正確なタイミングを簡単に特定することはできません。これは、彼らが音に対する期待を制限していることを意味します。
ゲームには、この低予想仮説が当てはまらない2つの重要なケースがあります。
プレーヤー自身がサウンドを発生させたとき(SamBが指摘しているように)、ボタンを押す意図を形成した瞬間から、サウンドをいつ聞くかを正確に知っています。
音楽ゲームやカチカチと音を立てるタイマー/カウンターを備えたもののように、音が周期的なビートに着地することになっている場合、このリズムにより、プレーヤーは次の音を予測し、時間切れになった場合に気付くことができます。
GDC 2013のこの講演では、Mathieu Pavageauが、プレイヤーが約5ミリ秒を超える同期精度の違いを認識できると主張しています。リップシンチングの例が示すよりもはるかに寛容です。「Time Perceptionの例」と「Ubisoftゲームの例」のセクションを確認して、自分で聞いてください。Rayman Originsメニューは、16ミリ秒(ビデオフレーム)以内に同期した場合、それ自体が「遅延」しているようには聞こえませんが、5ミリ秒以内に同期した場合、著しく良く、よりタイトに聞こえます。
Pavageauは、低レベルのオーディオコールバックを使用して、この種類のタイトでリズミカルなゲームプレイが必要な場合、この種のサブフレームの精度を獲得することを提唱しています。
理論的には、50msを超えるものはすべて写真との関連で顕著になります。25msで音とその遅延を2つの別々の音として聞くことができるため、50ms未満にとどまることを強くお勧めします。 5ミリ秒から15ミリ秒の範囲に留まることもできます。
これがお役に立てば幸いです!