オーディオ信号処理初心者向けの学習ロードマップ

13

オーディオ信号処理の学習を開始したいと思います。オンラインの多数の書籍や学術論文があり、そのすべてがトピックの基本をスキップしているようです。

音声信号処理をうまく学習するために、大まかなロードマップを知りたいのです。

信号解析を開始する前に、微積分が最初のステップであることを読みました。

オーディオ信号解析は、必要な知識全体の一部に過ぎないように感じます。他のトピックは、音楽理論、オーディオエンジニアリング、プログラミングです。

この分野の知識を持つ人々に、オーディオ信号の分析と操作/作成の方法を理解するための可能な手順を提案するようお願いする場合があります。

audio

— ジャリード
ソース

信号およびシステム理論のテキストまたはコースで遭遇する可能性のある数学を理解する機会を得るには、微積分学の背景が（少なくとも）重要であることに同意します。私はあなたが最初にそこに嗅ぐことを確認します。

— ジェイソンR

1

これらのスライドが役立つ場合があります。彼らは、オーディオ処理とオーディオプログラミングの非数学/エンジニアリングの基本の一部を理解します。blog.bjornroche.com/2011/11/...

— ビョルン・ロシュ

17

Julius O. Smith III教授のPhysical Audio Signal Processingをご覧になることをお勧めします。オンラインで入手できるほか、Amazonのプリントオンデマンドサービスから購入することもできます。

特に、 Book Series Overviewの価値があるかもしれません。

ここに画像の説明を入力してください

— ピーターK.
ソース

9

オーディオが基本的に何であり、オーディオをデジタルで表現するさまざまな方法が何であるかを最初に理解しない限り、DFT / FFT / IIR / FIRとウェーブレットの複雑さに飛び込むポイントはないと思います。

一般的なオーディオとは何ですか（水または他の素材ではなく、空気中）：

オーディオは音圧波で構成されています
空気の圧縮と希薄化を引き起こす
これらの波はソースのポイントから外側に伝播します
波が互いに干渉して、ピークと谷を引き起こす可能性があります
波は材料によって吸収および反射されます

オーディオは電気的にどのように表されますか：

マイクとプリアンプが音圧波を電気信号に変換します
通常、この信号には正と負の両方の電圧があります（AC電圧など）
磁気テープはこれらの違いが現れるとそれらを保存するため、アナログという用語
入力信号の強度がシステムの限界に等しい場合に飽和が発生します（電圧のこれ以上の増加は正確に表すことができません）
入力信号がシステムで表現できるよりも高い場合、クリッピングが発生するため、信号はクリップされます（または端でキャップされます）。

オーディオはデジタルでどのように表現されますか：

ADC（アナログデジタルコンバーター）を使用してオーディオを最初にサンプリングする必要があります
サンプリングは、定期的にオーディオ信号を電気的に測定することで構成されます
この期間はサンプルレートと呼ばれ、表現可能な最高周波数（ナイキスト制限）を決定します。
ナイキスト制限はサンプルレート/ 2です（制限に近づくほど、信号の表現が不十分になります）
ビット範囲はノイズフロアを決定します（16ビットで-96dB対8ビットで-48dB）
オーディオの単一の16ビットサンプルは、-32768〜32767の（符号付き）値にすることができます（これは、アナログ信号の負と正の両方の振幅を表すことができます）
バイトごとに許可されているのは1バイトあたり8ビットのみであるため（コンピューターストレージの観点から）、16ビットのサンプルは少なくとも2バイトで表す必要があります。
これらのバイトが格納される順序は、エンディアンタイプ（大または小）と呼ばれます。
ステレオサンプルでは、チャネルごとに個別のサンプルが必要です。1つは左用、もう1つは右用です

デジタルオーディオを保存するために使用されるさまざまな方法：

PCM（パルス符号変調）は、オーディオをデジタルで保存する最も一般的な非圧縮方法です
使用されるデータ量を削減するために多くの圧縮が存在し、一部はロスレス、一部は損失あり
WAVファイルは非圧縮であり、モノラルまたはステレオ（インターリーブされたサンプル）にすることができます
MP3ファイルは圧縮されて損失が多く、心理音響学を使用して非常に高いデータ圧縮率を実現します。
使用状況によっては、最低のビット範囲（1ビット）でも役立ちます。通常は、1ビットとして保存されているオーディオを再生するギフトカードです。

デジタル領域でオーディオをよりよく理解する方法：

やることやもっとやる！audacityなどのプログラムをダウンロードし、異なるサンプルレートとビット範囲を使用して異なるオーディオファイルを作成します
正弦波/三角形/正方形とのこぎり波を作成して、違いを聞きます
8ビット10KHzファイルと16ビット44.1KHzファイル（CD品質）などのタイプの違いを理解する
ハイパス/ローパス/バンドパスフィルターを試して、違いを聞きます
飽和限界を超えて信号をプッシュして、クリッピングがオーディオ信号に与える影響を理解します
ソフトウェアにこの機能がある場合、信号にエンベロープを適用します
非調和歪みと調和歪みには違いがあり、両方で実験してください
スペクトログラム（FFT）を使用して、これらおよびその他の信号を確認し、それらに精通します。
線形プロットと対数プロットの両方を使用して、違いを確認します
信号をダウンサンプリングおよびアップサンプリングし、これがオーディオに与える影響を聞きます
異なるディザリング方法を使用して（ビット範囲を変換する場合）、違いを聞きます

これにより、DSPを試す前に、デジタルで表現されたオーディオとは何か、違いはどのように聞こえるかについての感覚が得られます。たとえば、8ビット信号と16ビット信号を入力したことや、変換での誤った誤計算によってサンプルレートが破損したことを認識できれば、FFT分析に問題があることを常に簡単に知ることができます。

— 失礼
ソース

答えてくれてありがとう。私はこれらのことを知っていますが、今はそれのdspコーディング側に入りたいです。

— ジェリード