オーディオのどの数学モデルが、(音色が複雑な)ポリフォニーの個々の音のピッチシフトを可能にしますか?


24

私の質問は次のとおりです。ポリフォニックアコースティック楽器の単一チャンネルのマルチボイスオーディオ録音で、個々の音符の変化(ピッチシフト)を可能にするポリフォニックサウンドの数学モデルは何ですか。「ポリフォニックオーディオのノートを変更する」とは、CeleonyのMelodyneソフトウェアのいわゆる「ダイレクトノートアクセス」機能でサウンドを編集するようなことを意味します。

ウィキペディアよると、Melodyneがアコースティック(したがって音色が複雑な)楽器で演奏される1行のメロディのオーディオ信号をモデル化するために使用するのは、ヘニングティーレマンが論文「モノフォニックサウンド位相と時間もつれを解く」で説明しているようなものですが、ポリフォニック楽器のオーディオ信号のモデルへの参照は見つかりません。Peter NeubackerのYoutubeインタビュー(以下に転記)によるとポリフォニックオーディオの編集を処理するMelodyneの機能には、Thielemannの説明とは異なるアプローチが必要です。

別のyoutubeクリップからの手がかりの1つは、ノイバッカーのモデルが1種類の楽器のみ(つまり、ピアノのみ、ギターのみ、弦のみ、風のみなど)のオーディオレコードでよりうまく機能することです。別の手がかりは、ノートのピッチをシフトするだけでなく、ノートの(開始および終了)タイミングもシフトする機能を示す別のクリップです。


以下は、「ポリフォニック素材には別のアプローチが必要」と述べたYouTubeビデオのトランスクリプトです(22:00から視聴する時間がない場合)。

  • Melodyneが発生した問題:このような[手で石を身振りで示す] 3次元形式からサウンドを取得するにはどうすればよいですか?それにより、音は連続時間への依存から解放されますか?この彫刻は、実際にこれから生まれたものです...それはプラスチックのかけらです...これは音楽データから直接派生しました。このオブジェクトは、この音を[リュートで音をたてて]います。このように、左から右に視覚化するのが最適です。時間はこの方向に進みます[左から右へのジェスチャー]。そして、それは振幅です(親指と反対の指で大きくも小さくもジェスチャーします)。私がそれを回すと、それは...任意のインスタンスでのこの音の音色を表します。ここでは、かなり三角形の構造[彫刻の下部​​の断面を指す]を非常に明確に見ることができます。それはこの音で、

    Melodyneはまだ存在せず、サウンドをこの形状に変換する実験をしていたので、この1つのサウンドでほぼ1年間働きました。...私はこの音の内と外を心から知っています。これは、ローカルサウンドの良い例でもあります。[マウスをクリック]するだけでなく、任意のポイントのサウンドを入力し、好きなだけゆっくりとすばやく移動することもできます。音を残したり、前後に移動したりすることもできるので、ここで1か所を調べたら...回ります。... 10年前は新しいものでした。

    最近、dna(直接メモアクセス)が追加されました。それにより、ポリフォニック音楽も編集できます。つまり、ギターの録音など、同時に聞こえる音を個別に編集できます。ここで小さなコードを演奏すると(画面で[ポリ]-> [音符を分離]を選択)、ここで演奏した3つの音符が個別のエンティティとして表示されます。もう一度聞いてみましょう[コンピューターはマイナーなコードを演奏します]。そして今、指をより高いフレットに移動するかのように、この1つの音を上げることができます[画面上の音を上にドラッグします。コンピューターが主要な和音を演奏する]。分割されたオーディオの場合、この1つのノートを分離し、任意のピッチに自由に上下させることができます。

    以前は、この方法で複雑な素材内の個々のトーンを分離できなかったのはなぜですか?正直わかりません。科学では、自然な傾向は、単純なもの、たとえば正弦波、または個々の音で始まり、それを最初に分析して、材料がより複雑になるか、全体を処理する必要がある場合にのみシステムを検出することです動作しません。私のアプローチは異なります。私は実際には複雑な信号から始めますが、何かを詳細に調べたい場合にのみ、より単純な信号に戻りますが、最初に、実際に実際に何が起こっているのかについて全体的な印象を持たなければなりません。

    秘密はおそらくこのロールにありますか?ふふ、これは実際にトイレットペーパーです。もともと石によって提起された問題は、どのようにして与えられた音を立体的な形に変換できるかということでした。ここでは、音の値をサンプリングする個人を配置しました。これは、ここでは1つ2つ3つで示され、螺旋状になっています。そして、ポイント間を補間すると[螺旋を横切る]、音の個々の断面を表す風景[彫刻の断面を示す]が現れます。

    ロールは何歳ですか?12年間。その考えは、今日見たすべてのMelodyneの源泉です...?はい、しかし、音を巻き上げるこの方法は、ポリフォニック素材にはもはや使用できなくなり、異なるアプローチが必要になります。


今は時間がありませんが、Bill SetharesのConsonanceに関する研究を読んでください。あなたの投稿を消化し、今後数日にわたってより完全に答えようとします。
ピーターK。

質問が何なのかわかりません。個々の音符を分離し、私は螺旋状にスペクトルを包むと思わせる「音を巻く」ように互いにノートのラインアップの高調波:nastechservices.com/Spectrograms.html nastechservices.com/Spectratune.html
endolith

回答:


12

TL; DR?調和部分分離のためのGoogle Scholar 。


適切な出発点は、信号を正弦波+ノイズ(決定論的および確率論的)コンポーネントに分離する正弦波モデリング手法です。サインで構成された決定論的コンポーネントは、説得力を持って再合成できます。

http://mtg.upf.edu/files/projectsweb/sms-piano-original.wav

http://mtg.upf.edu/files/projectsweb/sms-piano-deterministic.wav

サインは信号から差し引かれ、ノイズ/確率的部分が残ります。

http://mtg.upf.edu/files/projectsweb/sms-piano-stochastic.wav

確率的部分は、ノイズ整形フィルターにノイズを通すことにより合成されます。他のいくつかは、これをサイン+ノイズ+過渡モデルに拡張しました。

https://ccrma.stanford.edu/~jos/sasp/Sines_Noise_Modeling.html

http://mtg.upf.edu/technologies/sms

信号の正弦波パラメーターを取得したら、高調波比を探したり、開始などでグループ化することで、重複する音の正弦を分離することができます。部分追跡により、Google Scholarで多くの結果が得られます。

http://recherche.ircam.fr/equipes/analyse-synthese/lagrange/research/papers/lagrangeIcassp05.pdf

http://dream.cs.bath.ac.uk/software/sndan/mqan.html

隠れマルコフモデル多項式、およびMacaulay-Quatieriはいくつかの方法です。確率論的な残り物を2つの音に分けることに困惑しています。Melodyneがこれにどのように対処しているかわかりません。


5

melodyneで使用されるアプローチには、2つの別々の周波数領域操作が必要です。最初に、ポリフォニック転写技術を使用して、ポリフォニックオーディオの周波数成分(標準周波数変換から)をノートアクティベーションにグループ化します。つまり、最も可能性の高いノートのアクティブ化に従って、高調波サブセットをグループ化します。参照と数学的モデルについては、このフォーラムの「インバースポリフォニックコード認識」への私の回答をご覧ください。

2番目の操作は、上記で抽出した高調波サブセットの周波数領域ピッチシフトです。確かではありませんが、Melodyneがフェーズボコーダーアプローチを使用してこれを達成することをほぼ保証します。この手法を使用してタイムストレッチを実行することもできます。Riffstationではこれらと同様の手法を使用しており、非常にうまく機能しています。


3

1つの可能性は、統計的パターンマッチングアプローチを使用した分析/再合成です。関連する楽器の組み合わせを知っているか、合理的に推測でき、予想されるすべての音の楽器音のテンプレート(初期トランジェント、スペクトルとスペク​​トルの進化などを含む)がある場合は、多数の正気コードの統計的マッチングを試すことができます最も可能性の高いポリフォニックの組み合わせを推定するために、テンプレートのサウンドパターンを使用した組み合わせ。これは、グローバルミニマムの非常に計算集約的な検索である可能性が非常に高く、さまざまな「AI」のような検索手法が役立つ場合があります。その後、さまざまな個々のコード確率を取得し、決定理論を使用して、時間内で最も可能性の高いポリフォニックシーケンスを選択できます。

次に、推定ノートを取り、選択したキーピッチとデュレーションでそれらを再合成します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.