一部の場所では、音楽はほとんど44.1 kHzでサンプリングされるのに対して、最大20 kHzしか聞こえないことを読みました。それはなぜです?
一部の場所では、音楽はほとんど44.1 kHzでサンプリングされるのに対して、最大20 kHzしか聞こえないことを読みました。それはなぜです?
回答:
理論的根拠は多くの場所で公開されていることに注意してください:ウィキペディア:なぜ44.1 kHzですか?
44,100は、最初の4つの素数の平方の積であるため、ソニーによって選択されました。これにより、他の多くの整数で割り切れます。これは、デジタルサンプリングで有用なプロパティです。
44100 = 2^2 * 3^2 * 5^2 * 7^2
お気づきのとおり、44100は人間の聴覚の2倍の限界をわずかに上回っています。すぐ上の部分は、したがって、(より少ないチップは拒否)にはあまり高価に、フィルタにいくつかの余裕を与えます。
以下のようラッセルはコメントで指摘し、他の多くの整数ので割り切れる側面は、サンプル・レートが選択された時点ですぐに利益を持っていました。初期のデジタルオーディオは、地域に応じてNTSCまたはPALのビデオ仕様をサポートする既存のアナログビデオ記録メディアに記録されていました。NTSCとPALのフィールドあたりのライン数およびフィールド/秒のレートは異なり、LCMは(ラインごとのサンプルと合わせて)44100です。
ナイキストレートは、あいまいさ(エイリアシングなど)なしでキャプチャするベースバンド信号の帯域制限の2倍を超えています。
20kHzの2倍よりも低いレートでサンプリングすると、エイリアスを見ているため、サンプルを見ただけでは、非常に高い周波数と非常に低い周波数の違いを知ることができません。
追加:有限長の信号は、周波数領域で無限にサポートされるため、厳密に帯域制限されないことに注意してください。これは、(有限フィルター遷移ロールオフの単なる理由を超えて)重大なエイリアシングを回避するために、(ベースバンド信号の)最高周波数スペクトルの2倍以上の非無限オーディオソースをサンプリングする必要があるもう1つの理由です。
基本的に、信号サンプリングには帯域幅の2倍が一般的な要件であるため、 kHzが最小です。次に、不完全なフィルタリングと量子化に対処するためにもう少し役立ちます。詳細は次のとおりです。
理論上必要なのは、実際に必要なものではありません。これは引用に沿っています(多くの人に起因):
理論的には、理論と実践の間に違いはありません。実際にはあります。
私はオーディオの専門家ではありませんが、高品質のオーディオサンプリング/圧縮の人々に訓練されています。私の知識は錆びているかもしれませんので、注意してください。
まず、標準サンプリング理論は、線形システムと時間不変性といういくつかの仮定の下で機能します。次に、理論的には、帯域幅の約2倍(またはベースバンド信号の場合は最大周波数の2倍)で損失なしにサンプリングされる連続帯域制限現象が知られています。「ナイキストレート」は、多くの場合次のように定義されます。
エラーを発生させずに信号をサンプリングできる最小レート
これは「サンプリング定理」の分析部分です。「できる」ことが重要です。合成部分があります。連続信号は、基本正弦を使用して同様に「再構成可能」です。これは唯一の手法ではなく、ローパスプレフィルタリング、非線形(量子化、飽和など)、およびその他の時変要素を考慮していません。
人間の聴覚は単純なトピックではありません。人間が20 Hzから20,000 Hzまでの周波数を聞くことは受け入れられています。しかし、ヘルツのそのような正確な境界は、すべての人間にとって自然の特性ではありません。より高い周波数に対する感度の段階的な低下は、年齢とともに頻繁に起こります。反対側:
理想的な実験室条件では、人間は12 Hzから28 kHzの音を聞くことができますが、成人では15 kHzでしきい値が急激に増加します
聴覚は線形ではありません。オーディションと苦痛の閾値があります。それは時不変ではありません。時間と周波数の両方にマスキング効果があります。
20 Hzから20,000 Hzの帯域が一般的な範囲であり、理論的には40,000 Hzで十分な場合、余分な歪みに対処するために少し余分に必要です。経験則によれば、10%以上は問題なく(信号帯域幅の)、44,100 Hzで十分です。1970年代後半に遡ります。なぜ44,000 Hzが使用されないのですか?主にCDの人気によって設定された標準が原因で、その技術は常にトレードオフに基づいています。さらに、44,100は最初の4つの素数の平方の積()であるため、小さな因子を持ち、計算(FFTなど)に役立ちます。
したがって、から(および倍数)まで、安全性、量子化、使いやすさ、計算、標準のバランスが取れています。
他のオプションもあります。たとえば、DAT形式は48 kHzサンプリングでリリースされ、最初は変換が困難でした。96 kHzは、量子化(またはビット深度)に関して、どのサンプルレートとビット深度を使用する必要がありますか? これは議論の余地のあるテーマです。24ビット48kHzと24ビット96kHzを参照してください。たとえば、Audacityのサンプルレートを確認できます。
正確に44.1 kHzである理由はすでに回答されていますが、人間の知覚の限界に関連する質問の側面に焦点を当てるために、理由は非常に単純です。
時間の分解能は、知覚可能な限界まで可能なすべての波形を生成できるように十分に細かくなければなりません。サンプリングの定理によれば、解像度は、サンプリング周波数がこの周波数の少なくとも2倍になるようにする必要があります。直感的に、最高周波数では、信号の最大値と最小値を表すために少なくとも2つのポイントが必要です。このAscii-art方形波は次のとおりです。
_ _
|_| |_
信号を忠実に再現するには、サンプルレートが速いほど良いです。〜40 kHzが選択されたのは、ほとんどの人が(再構成されたとき)の違いを判断できない低サンプルレートだったからです。オーディオサンプリングが導入されたとき、メモリとストレージは高価であり、高いサンプリングレートを安価に実現することはできませんでした。
人間の聴力の上限の2倍では、信号をサンプリングするためのナイキスト基準を満たしている場合でも、サイクルごとに2つのサンプルが非常に貧弱な再構築です。波形の再現。文字通り、正弦波を方形波に変えることができます。20 kHzでは誰にもわかりません。私は犬ができるに違いない。