タグ付けされた質問 「audio」

オーディオ、または信号処理の観点から見ると、オーディオ信号は、通常は電圧としての、音声のアナログまたはデジタル表現です。


8
相互相関を実装して、2つのオーディオファイルが似ていることを証明するにはどうすればよいですか?
2つのオーディオファイルを相互相関させて、それらが類似していることを証明する必要があります。2つのオーディオファイルのFFTを取得し、それらのパワースペクトル値を別々の配列に格納しています。 それらを相互相関させて、それらが類似していることを証明するには、どのようにさらに進める必要がありますか?それを行うより良い方法はありますか?基本的なアイデアは、それを学び、適用するのに役立ちます。

4
オーディオ処理/分析用のOpenCVの類似ライブラリ
OpenCVは、C / C ++で画像処理をプログラミングするための事実上のライブラリです。オーディオ処理用のそのようなCまたはC ++ライブラリがあるかどうか疑問に思っています。基本的に、マイクからの生の波をフィルタリングし、いくつかの機械学習アルゴリズムで分析したいと思います。しかし、私は最終的にも必要になる場合があります: マルチプラットフォームオーディオキャプチャおよびオーディオ再生 DSP-オーディオフィルター トーン検出 色調特性分析 トーン合成 いくつかの認識コーパスとモデルを与えられた認識 音声/音楽合成 アドバイスをいただければ幸いです。

10
クリッピングせずにオーディオ信号をミックスするアルゴリズム
2つ以上のPCMオーディオチャネル(録音されたサンプルなど)を音響的に忠実に、できればほぼリアルタイム(ピークがほとんどまたはまったくない)でデジタルでミックスしたいと思います。 これを行う物理的に「正しい」方法は、サンプルを合計することです。ただし、2つの任意のサンプルを追加すると、結果の値は最大値の2倍になる可能性があります。 たとえば、サンプルが16ビット値の場合、結果は最大65536 * 2になります。これにより、クリッピングが発生します。 ここでの単純な解決策は、Nで割ることです。ここで、Nは混合されるチャネルの数です。ただし、これにより、各サンプルは1 / Nthの音量になり、完全に非現実的です。現実の世界では、2つの楽器が同時に演奏されると、各楽器の音量は半分になりません。 一般的なミキシング方法は、result = A + B-ABです。ここで、AとBは混合される2つの正規化されたサンプルであり、ABはより大きな音がますます「ソフトクリップ」されることを保証する用語です。 ただし、これにより信号に歪みが生じます。このレベルの歪みは、高品質のオーディオ合成で許容されますか? この問題を解決する他の方法はありますか?効率の悪い低品質のアルゴリズムと、効率の低い高品質のアルゴリズムに興味があります。 複数の楽器トラックを一緒にミキシングするために、デジタル音楽シンセシスのコンテキストで質問をしています。トラックは、合成オーディオ、事前に録音されたサンプル、またはリアルタイムのマイク入力です。

6
オーディオエンベロープの開始と停止の場所を検出する最も簡単な方法
以下は、話している人の録音を表す信号です。これに基づいて一連の小さなオーディオ信号を作成したいと思います。「重要な」サウンドの開始と終了を検出し、それらをマーカーに使用してオーディオの新しいスニペットを作成するという考え方です。言い換えれば、音声の「チャンク」がいつ開始または停止したかを示すインジケータとして無音を使用し、これに基づいて新しい音声バッファを作成したいと思います。 たとえば、ある人が自分自身を記録する場合 Hi [some silence] My name is Bob [some silence] How are you? 次に、これから3つのオーディオクリップを作成したいと思います。言うHiもの、言うMy name is Bobもの、言うものHow are you?。 私の最初のアイデアは、低振幅の領域がある場所を常にチェックするオーディオバッファーを実行することです。たぶん、最初の10個のサンプルを取得して値を平均し、結果が低い場合は無音としてラベル付けすることでこれを行うことができます。次の10個のサンプルをチェックして、バッファを進めていきます。この方法で増分することで、エンベロープの開始位置と停止位置を検出できました。 誰でも良い、しかしこれを行う簡単な方法についてアドバイスがあれば、それは素晴らしいことです。私の目的のために、解決策は非常に初歩的なことができます。 私はDSPのプロではありませんが、いくつかの基本的な概念を理解しています。また、プログラムでこれを行うので、アルゴリズムとデジタルサンプルについて話すのが最善です。 すべての助けてくれてありがとう! 編集1 これまでのところ素晴らしい反応です!ライブオーディオではないことを明確にしたかったので、ライブラリを使用するソリューションは実際には選択肢ではないため、CまたはObjective-Cでアルゴリズムを自分で記述します。

5
位相遅延と群遅延の違いは何ですか?
DSPを勉強していますが、位相遅延と群遅延の違いを理解するのに苦労しています。 どちらもフィルターを通過した正弦波の遅延時間を測定しているように思えます。 これを考えるのは正しいですか? その場合、2つの測定値はどのように異なりますか? 誰かが一方の測定がもう一方の測定よりも有用である状況の例を挙げることができますか? 更新 Julius Smithの「デジタルフィルターの概要」を読んで、2つの測定値が少なくとも異なる結果を与える状況を見つけました:アフィン位相フィルター。それは私の質問に対する部分的な答えだと思います。

9
DFTまたはFFTなしで周波数を見つけるためのアルゴリズムはありますか?
Androidアプリストアでギターチューナーを探していました。他のアプリよりも高速だと主張するチューナーアプリを見つけました。DFTを使用せずに周波数を見つけることができると主張しました(この仕様へのURLがあればいいのに)。 私はこれを聞いたことがありません。DFTまたはFFTアルゴリズムを使用せずに、オーディオ信号を取得して周波数を計算できますか?
34 audio  fft  frequency  dft 

4
録音中の信号クリッピングを検出する良い方法は何ですか?
録音が行われた場合、クリッピングが発生したかどうかを検出する必要があります。 いずれかのサンプルが最大サンプル値に達した場合、クリッピングがあったと安全に結論付けることができますか、または最大レベルで一連の後続のサンプルを検索する必要がありますか? 記録は、16または24ビットA / D変換器から採取することができ、範囲ポイント値フローティングに変換される。この変換が2 15 − 1またはによる除算の形式をとる場合、おそらく負のピークは-1よりやや低くなり、値が-1のサンプルはクリップされませんか?− 1 ... 1−1 ... 1-1...1215− 1215−12^{15}-1223− 1223−12^{23}-1 明らかに、クリッピング検出アルゴリズムを無効にするための信号をいつでも作成できますが、音声、音楽、正弦波、ピンク/ホワイトノイズの録音を見ています。
32 audio  algorithms 

4
信号包絡線を計算するヒルベルト変換?
ヒルベルト変換を使用して信号のエンベロープを計算できると聞いたことがあります。これはどのように作動しますか?そして、この「ヒルベルト包絡線」は、信号を単純に整流することによって得られる包絡線とどのように違いますか? ダイナミックレンジ圧縮で使用するエンベロープを計算する方法を見つけることに特に興味があります(つまり、オーディオ信号の大きな部分の「音量を下げる」)。
27 audio 

5
周波数間をスムーズに移行できる正弦波ジェネレーターを作成する方法
オーディオ用の基本的な正弦波ジェネレーターを作成できますが、ある周波数から別の周波数にスムーズに移行できるようにしたいと考えています。1つの周波数の生成を停止し、すぐに別の周波数に切り替えると、信号に不連続が発生し、「クリック音」が聞こえます。 私の質問は、クリックを導入することなく、たとえば250Hzで始まり、300Hzに移行する波を生成するための優れたアルゴリズムとは何ですか。アルゴリズムにオプションのグライド/ポルタメント時間が含まれている場合は、はるかに優れています。 オーバーサンプリングに続いてローパスフィルターを使用する、またはウェーブテーブルを使用するなど、いくつかの可能なアプローチを考えることができますが、これは標準的な方法で対処できるほど一般的な問題であると確信しています。
27 audio 

6
サンプルから波形のPDFを計算する
しばらく前に、デジタル波形を描画するさまざまな方法を試していましたが、私が試みたのは、振幅エンベロープの標準シルエットではなく、オシロスコープのように表示することでした。これは、正弦波と方形波がスコープ上でどのように見えるかです。 これを行う単純な方法は次のとおりです。 出力画像のオーディオファイルを水平ピクセルごとに1つのチャンクに分割します 各チャンクのサンプル振幅のヒストグラムを計算します ピクセルの列として輝度でヒストグラムをプロットします 次のようなものが生成されます。 これは、チャンクごとに多くのサンプルがあり、信号の周波数がサンプリング周波数と無関係である場合は正常に機能しますが、そうでない場合は機能しません。たとえば、信号周波数がサンプリング周波数の正確な約数である場合、サンプルは各サイクルで正確に同じ振幅で常に発生し、実際の再構成信号がこれらのポイント間に存在しても、ヒストグラムはほんの数ポイントになります。このサインパルスは上記の左と同じくらい滑らかでなければなりませんが、正確に1 kHzであり、サンプルは常に同じポイントの周辺で発生するため、そうではありません。 ポイント数を増やすためにアップサンプリングを試みましたが、問題は解決せず、場合によっては問題を解決するのに役立ちます。 だから、私が本当に欲しいのは、デジタルサンプルから連続的に再構築された信号の真のPDF(確率vs振幅)(振幅vs時間)を計算する方法です。これに使用するアルゴリズムがわかりません。一般に、関数のPDFはその逆関数の導関数です。 sin(x)のPDF:ddバツアークシンx = 11 - x2√ddxarcsin⁡x=11−x2\frac{d}{dx} \arcsin x = \frac{1}{\sqrt{1-x^2}} しかし、逆関数が多値関数である波に対してこれを計算する方法や、それを高速に行う方法はわかりません。それをブランチに分割し、それぞれの逆数を計算し、導関数を取り、それらをすべて合計しますか?しかし、それはかなり複雑で、おそらくもっと簡単な方法があります。 この「補間データのPDF」は、GPSトラックのカーネル密度推定を行う試みにも適用できます。リング状にすべきでしたが、サンプルだけを見て、サンプル間の補間点を考慮していなかったため、KDEはリングというよりもハンプのように見えました。サンプルがわかっているだけであれば、これが最善です。しかし、サンプルは私たちが知っているすべてではありません。また、サンプル間にパスがあることもわかっています。GPSの場合、帯域制限されたオーディオのように完璧なナイキスト再構成はありませんが、補間関数に推測を加えることで基本的な考え方が適用されます。

5
「Lena」、「Mandrill」、「Cameraman」などの画像の音声相当物は何ですか?
これらの画像を何と呼ぶか​​わかりませんが、画像処理の世界では、特定の操作の出力を表示するための標準的な例として頻繁に使用されています。Lenaを「標準テストイメージ」として説明しているページへのリンクを次に示します。特定のオーディオフィルターまたは操作の効果を示すために使用される類似の標準的なオーディオクリップはありますか?


3
高次フィルターのカスケードバイカッドセクションはどのように機能しますか?
私は8次のIIRフィルターを実装しようとしていますが、これまで読んだすべてのアプリケーションノートと教科書には、2次のセクションとして2を超える次数のフィルターを実装するのが最善であると書かれています。tf2sosMATLABで2次セクションの係数を取得するために使用しましたが、予想どおり、4 2次セクションの6x4係数が得られました。SOSとして実装する前は、8次フィルターには7つの以前のサンプル値を保存する必要がありました(および出力値も)。ここで、2次セクションとして実装するとき、フローが入力から出力までどのように機能するか、2つの前のサンプル値のみを保存する必要がありますか?または、最初のフィルターの出力はx_in2番目のフィルターのように送られますか?
20 filters  filter-design  infinite-impulse-response  biquad  audio  image-processing  distance-metrics  algorithms  interpolation  audio  hardware  performance  sampling  computer-vision  dsp-core  music  frequency-spectrum  matlab  power-spectral-density  filter-design  ica  source-separation  fourier-transform  fourier-transform  sampling  bandpass  audio  algorithms  edge-detection  filters  computer-vision  stereo-vision  filters  finite-impulse-response  infinite-impulse-response  image-processing  blur  impulse-response  state-space  linear-systems  dft  floating-point  software-implementation  oscillator  matched-filter  digital-communications  digital-communications  deconvolution  continuous-signals  discrete-signals  transfer-function  image-processing  computer-vision  3d 

4
Spectrogramからのオーディオ信号の再構築
50%オーバーラップしたハミングウィンドウを使用してマグニチュードスペクトログラムを抽出した曲のセットがあります。スペクトログラムを抽出した後、主成分分析(PCA)を使用していくつかの次元削減を行いました。それを低次元に減らした後、低次元からスペクトログラムを再構築しました。そのため、元のスペクトログラムと再構成されたスペクトログラムの間にエラーが発生します。私はオーディオの音をどうするか、下の次元から再構築するとき、私は知ることができるだろうだから、オーディオ信号に、このスペクトログラムの背中を変換し、それを再生したいと思います。 Matlabなどで利用可能な機能はありますか?マグニチュードスペクトログラムをオーディオ信号に変換するには??

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.