人間が最大20 kHzの周波数の音しか聞こえない場合、なぜ音楽オーディオは44.1 kHzでサンプリングされるのですか?


60

一部の場所では、音楽はほとんど44.1 kHzでサンプリングされるのに対して、最大20 kHzしか聞こえないことを読みました。それはなぜです?


1
若い人はより高い周波数を聞くことができます。他の録音技術では、最大48 kHzを使用します。
トールビョーンラヴンアンデルセン

15
ナイキスト定理:波の周波数を知るには、スイングごとに2つのサンプルが必要です。
mathreadler

プロセッサは高速であるため、メモリは安価ですが、優れたアナログフィルターは依然として扱いにくく、サンプルレートを高くしても意味があります(96または192 kHz)
Nick T

2
@ThorbjørnRavnAndersen48 kHzは、ビデオ制作で使用される24、25、および30 fpsに分割できるため、一般的だと思います。24は44100に均等には入りません。それがウィキペディアが言及していることです。
ニックT

4
@SohamDeこれは、20 kHzのオーディオ信号を正確に20 kHzでサンプリングした場合、何も聞こえないためです。1 / 20,000秒ごとにピークになる正弦波を想像してください。それをまったく同じレートでサンプリングする場合、ピーク(またはノード、またはサンプリングするレベル)のみをサンプリングします。したがって、デジタルから信号を再作成する場合、得られるのはフラットラインだけです。この概念はエイリアシングと呼ばれ、聞こえるようにする最大周波数の少なくとも2倍でサンプリングする必要があるようにします。44 100 Hzは2の累乗で割り切れるので便利です。
MichaelK17年

回答:


89
  1. 実際の信号のサンプリングレートは、信号帯域幅の2倍以上である必要があります。オーディオは実際には0 Hzで始まるため、44.1 kHzで録音されたオーディオに存在する最高周波数は22.05 kHz(22.05 kHz帯域幅)です。
  2. 完全なブリックウォールフィルターは数学的に不可能であるため、20 kHzを超える周波数を完全に遮断することはできません。余分な2 kHzはフィルターのロールオフ用です。それは、オーディオの缶「余地」です別名不完全なフィルタに、我々はそれを聞くことはできません。
  3. 44.1 kHzの特定の値は、当時使用されていたPALおよびNTSCビデオフレームレートと互換性がありました。

理論的根拠は多くの場所で公開されていることに注意してください:ウィキペディア:なぜ44.1 kHzですか?


9
こんにちは、私はあなたの答えに本当に同意しますが、ナイキストは最高周波数ではなく帯域幅に関するものであるため、「..最高周波数の2倍」というものが初心者をすぐに噛みつきます。先に進み、あなたの答えを少し修正しました。あなたに問題がないか確認してください。
マーカスミュラー

2
@Ruslan:ウィキペディアはそれについてかなりいいです。
jojek

2
@BrianDrummondそれで編集しますか?
エンドリス

3
@MarcusMüllerエイリアシングアーチファクトのことで、とにかくかまれます「Nyqvistが最も高い周波数を許可されている」に刺されています初心者が...その後、彼らはまた、どのように理解しましょう任意の帯域幅の周波数の範囲間の1つに復調されてと。Δf0Δf=fs/2
左辺

1
10個の倍音を含む19,999.9Hzの音と9個の倍音を含む20,000.1Hzの音の違いは、別々に聞いた場合には区別できないかもしれませんが、2つの間の遷移が聞こえないという意味ではありません。より緩やかなカットオフを持つフィルターを使用すると、このような問題を回避できます。
スーパーキャット

72

44,100は、最初の4つの素数の平方の積であるため、ソニーによって選択されました。これにより、他の多くの整数割り切れます。これは、デジタルサンプリングで有用なプロパティです。

44100 = 2^2 * 3^2 * 5^2 * 7^2

お気づきのとおり、44100は人間の聴覚の2倍の限界をわずかに上回っています。すぐ上の部分は、したがって、(より少ないチップは拒否)にはあまり高価に、フィルタにいくつかの余裕を与えます。

以下のようラッセルはコメントで指摘し、他の多くの整数ので割り切れる側面は、サンプル・レートが選択された時点ですぐに利益を持っていました。初期のデジタルオーディオは、地域に応じてNTSCまたはPALのビデオ仕様をサポートする既存のアナログビデオ記録メディアに記録されていました。NTSCとPALのフィールドあたりのライン数およびフィールド/秒のレートは異なり、LCMは(ラインごとのサンプルと合わせて)44100です。


12
選択は、単に多くの主要な要因を取得することではなく、特にデジタルマスターを保存するためにNTSCとPALのビデオ録画機器をうまく利用することでした。en.wikipedia.org/wiki/44,100_Hz#Recording_on_video_equipment
ラッセルボロゴーブ

3
@RussellBorogove:ありがとう。Wikiリンクによると、44100はNTSCおよびPALビデオ機能のサンプルレートのLCMです。それは非常に多くの要因を持つ数であることの非常に直接的な結果であり、この仕様で馬がカートをリードしたことは正しいと信じています。
-dotancohen

1
多くの数字で割り切れるが、8で割り切れない:)
ボグダンアレクサンドルー

(ウィキペディアは46.8 kHzの40.5から金利の様々なこれらの基準を満たしているだろうと言い、および44.1 kHzのフィルタantiliasingのために遷移帯域を提供するために選択された)
endolith

2
また@BogdanAlexandru 1ミリ秒のUSBフレームで割り切れない:D
endolith

13

ナイキストレートは、あいまいさ(エイリアシングなど)なしでキャプチャするベースバンド信号の帯域制限の2倍を超えています。

20kHzの2倍よりも低いレートでサンプリングすると、エイリアスを見ているため、サンプルを見ただけでは、非常に高い周波数と非常に低い周波数の違いを知ることができません。

追加:有限長の信号は、周波数領域で無限にサポートされるため、厳密に帯域制限されないことに注意してください。これは、(有限フィルター遷移ロールオフの単なる理由を超えて)重大なエイリアシングを回避するために、(ベースバンド信号の)最高周波数スペクトルの2倍以上の非無限オーディオソースをサンプリングする必要があるもう1つの理由です。


こんにちは、私はあなたの答えに本当に同意しますが、ナイキストは最高周波数ではなく帯域幅に関するものであるため、「..最高周波数の2倍」というものが初心者をすぐに噛みつきます。先に進み、あなたの答えを少し修正しました。あなたに問題がないか確認してください。
マーカスミュラー

6
@MarcusMüller、サンプリングの「初心者」はパスバンド信号ではなくベースバンド信号のサンプリングから始まるため、実際に帯域幅ではなく最高周波数(「帯域制限」と呼ばれることもあります)であり(片側または両側に関して追加のあいまいさがあります)帯域幅)。
ロバートブリストージョンソン

@ robertbristow-johnsonはそのあいまいさを見ていません。うーん; 私は帯域制限アプローチが好きです!
マーカスミュラー

3
Wikipediaの記事、私たちは「それを呼び出すシャノンは言ったものの、」と、彼は、無限のエネルギーを持っているので、何の正弦波を(有限エネルギーを想定していなかったともでディラックのデルタを置くことができ、十分です)。周波数で正弦波を許可すると、より頻繁にます。Bfs2B±BBfs>2B
ロバートブリストージョンソン

10

基本的に、信号サンプリングには帯域幅の2倍が一般的な要件であるため、 kHzが最小です。次に、不完全なフィルタリングと量子化に対処するためにもう少し役立ちます。詳細は次のとおりです。2×20=40

理論上必要なのは、実際に必要なものではありません。これは引用に沿っています(多くの人に起因):

理論的には、理論と実践の間に違いはありません。実際にはあります。

私はオーディオの専門家ではありませんが、高品質のオーディオサンプリング/圧縮の人々に訓練されています。私の知識は錆びているかもしれませんので、注意してください。

まず、標準サンプリング理論は、線形システムと時間不変性といういくつかの仮定の下で機能します。次に、理論的には、帯域幅の約2倍(またはベースバンド信号の場合は最大周波数の2倍)で損失なしにサンプリングされる連続帯域制限現象が知られています。「ナイキストレート」は、多くの場合次のように定義されます。

エラーを発生させずに信号サンプリングできる最小レート

これは「サンプリング定理」の分析部分です。「できる」ことが重要です。合成部分があります。連続信号は、基本正弦を使用して同様に「再構成可能」です。これは唯一の手法ではなく、ローパスプレフィルタリング、非線形(量子化、飽和など)、およびその他の時変要素を考慮していません。

人間の聴覚は単純なトピックではありません。人間が20 Hzから20,000 Hzまでの周波数を聞くことは受け入れられています。しかし、ヘルツのそのような正確な境界は、すべての人間にとって自然の特性ではありません。より高い周波数に対する感度の段階的な低下は、年齢とともに頻繁に起こります。反対側:

理想的な実験室条件では、人間は12 Hzから28 kHzの音を聞くことができますが、成人では15 kHzでしきい値が急激に増加します

聴覚は線形ではありません。オーディションと苦痛の閾値があります。それは時不変ではありません。時間と周波数の両方にマスキング効果があります。

20 Hzから20,000 Hzの帯域が一般的な範囲であり、理論的には40,000 Hzで十分な場合、余分な歪みに対処するために少し余分に必要です。経験則によれば、10%以上は問題なく(信号帯域幅の)、44,100 Hzで十分です。1970年代後半に遡ります。なぜ44,000 Hzが使用されないのですか?主にCDの人気によって設定された標準が原因で、その技術は常にトレードオフに基づいています。さらに、44,100は最初の4つの素数の平方の積()であるため、小さな因子を持ち、計算(FFTなど)に役立ちます。2.2×22×32×52×72

したがって、から(および倍数)まで、安全性、量子化、使いやすさ、計算、標準のバランスが取れています。2×2044.1

他のオプションもあります。たとえば、DAT形式は48 kHzサンプリングでリリースされ、最初は変換が困難でした。96 kHzは、量子化(またはビット深度)に関して、どのサンプルレートとビット深度を使用する必要がありますか? これは議論の余地のあるテーマです。24ビット48kHzと24ビット96kHzを参照してください。たとえば、Audacityのサンプルレートを確認できます。


2
1.質問への答えは、ナイキスト定理が20kHzではなく40kHzを規定していることです。2.人間の聴覚もCDフォーマットも、ローエンドで20Hzに制限されていません。十分な大きさのパイプオルガンは16Hzのトーンを生成でき、CDはそれを簡単に再生できます。いくつかの器官は8Hzに下がり、これは個々の振動として知覚され始めますが、ここでもCDは再生できます。
user207421

「口述」以外のコメントに同意します(これは「if」条件です)。私がどこから逸脱したかを指摘してもらえますか?
ローランデュバル

1
@LaurentDuvalの答えに対する補足は1つだけです。一般的に、音声、音楽、および音は非定常信号です。これらは事実上帯域制限されていますが、人間の耳がどのように連続時間信号を音の知覚を促進する神経発火に変換しているかはわかりません。一部の人々は「金色の耳」を持ち、44.1 kHzの録音と96 kHzの録音を区別できると主張することがよくあります。また、以下についてはまだ確認していませんが、サンプリングレートが高いと、バイノーラル録音のローカリゼーションなど、追加のキューの知覚にメリットがあるようです。
Neeks

0

正確に44.1 kHzである理由はすでに回答されていますが、人間の知覚の限界に関連する質問の側面に焦点を当てるために、理由は非常に単純です。

時間の分解能は、知覚可能な限界まで可能なすべての波形を生成できるように十分に細かくなければなりません。サンプリングの定理によれば、解像度は、サンプリング周波数がこの周波数の少なくとも2倍になるようにする必要があります。直感的に、最高周波数では、信号の最大値と最小値を表すために少なくとも2つのポイントが必要です。このAscii-art方形波は次のとおりです。

_   _
 |_| |_

-1

信号を忠実に再現するには、サンプルレートが速いほど良いです。〜40 kHzが選択されたのは、ほとんどの人が(再構成されたとき)の違いを判断できない低サンプルレートだったからです。オーディオサンプリングが導入されたとき、メモリとストレージは高価であり、高いサンプリングレートを安価に実現することはできませんでした。

人間の聴力の上限の2倍では、信号をサンプリングするためのナイキスト基準を満たしている場合でも、サイクルごとに2つのサンプルが非常に貧弱な再構築です。波形の再現。文字通り、正弦波を方形波に変えることができます。20 kHzでは誰にもわかりません。私は犬ができるに違いない。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.