信号処理

信号、画像およびビデオ処理の芸術および科学の実務家のためのQ&A

10
ディープラーニングは画像処理/コンピュータービジョンを破壊しますか?
私は信号および画像処理、または多分コンピュータービジョン(まだ決定していません)の修士課程に登録することを楽しみにしており、この質問が浮上しました。 私の懸念は、ディープラーニングは特徴抽出と入力前処理をほとんど必要としないため、画像処理(または一般的な信号処理)を殺すことですか? 私はディープラーニングの専門家ではありませんが、他の手法のような特徴ベクトルの代わりに画像を直接取得する認識および分類タスクで非常にうまく機能しているようです。 画像処理技術を使用して、従来の特徴抽出+分類アプローチの方が良い場合はありますか、またはこれはディープラーニングのために死にかけていますか?

4
オーディオ処理/分析用のOpenCVの類似ライブラリ
OpenCVは、C / C ++で画像処理をプログラミングするための事実上のライブラリです。オーディオ処理用のそのようなCまたはC ++ライブラリがあるかどうか疑問に思っています。基本的に、マイクからの生の波をフィルタリングし、いくつかの機械学習アルゴリズムで分析したいと思います。しかし、私は最終的にも必要になる場合があります: マルチプラットフォームオーディオキャプチャおよびオーディオ再生 DSP-オーディオフィルター トーン検出 色調特性分析 トーン合成 いくつかの認識コーパスとモデルを与えられた認識 音声/音楽合成 アドバイスをいただければ幸いです。


10
クリッピングせずにオーディオ信号をミックスするアルゴリズム
2つ以上のPCMオーディオチャネル(録音されたサンプルなど)を音響的に忠実に、できればほぼリアルタイム(ピークがほとんどまたはまったくない)でデジタルでミックスしたいと思います。 これを行う物理的に「正しい」方法は、サンプルを合計することです。ただし、2つの任意のサンプルを追加すると、結果の値は最大値の2倍になる可能性があります。 たとえば、サンプルが16ビット値の場合、結果は最大65536 * 2になります。これにより、クリッピングが発生します。 ここでの単純な解決策は、Nで割ることです。ここで、Nは混合されるチャネルの数です。ただし、これにより、各サンプルは1 / Nthの音量になり、完全に非現実的です。現実の世界では、2つの楽器が同時に演奏されると、各楽器の音量は半分になりません。 一般的なミキシング方法は、result = A + B-ABです。ここで、AとBは混合される2つの正規化されたサンプルであり、ABはより大きな音がますます「ソフトクリップ」されることを保証する用語です。 ただし、これにより信号に歪みが生じます。このレベルの歪みは、高品質のオーディオ合成で許容されますか? この問題を解決する他の方法はありますか?効率の悪い低品質のアルゴリズムと、効率の低い高品質のアルゴリズムに興味があります。 複数の楽器トラックを一緒にミキシングするために、デジタル音楽シンセシスのコンテキストで質問をしています。トラックは、合成オーディオ、事前に録音されたサンプル、またはリアルタイムのマイク入力です。


6
葉の静脈を分割する最良の方法は?
私は多くの研究をしており、葉の静脈を検出するのに使用できる適応しきい値や流域などの方法を見つけました。ただし、多くのノイズが発生するため、しきい値設定は適切ではありません。 私の画像はすべて灰色の画像です。緊急の助けが必要なこの問題を考慮しながら、誰がどのアプローチを採用するか提案してください 編集:元の画像 しきい値処理後 答えが示唆するように、私は次のエッジ検出を試みました キャニー 多すぎるノイズと不要な妨害 ソーベル ロバーツ 編集:もう1つの操作を試みましたが、次の結果が得られました。キャニーとアダプティブで試したものよりも良いですか?

3
スパースフーリエ変換とは何ですか?
MITは最近、特定の種類の信号で機能する高速フーリエ変換として宣伝されている新しいアルゴリズムについて少し騒ぎ立てています。たとえば、「世界で最も重要な新興技術の1つと名付けられた高速フーリエ変換」です。MIT Technology Review誌によると: スパースフーリエ変換(SFT)と呼ばれる新しいアルゴリズムを使用すると、データストリームをFFTで可能だったよりも10〜100倍高速に処理できます。私たちが最も関心を持っている情報は非常に多くの構造を持っているため、スピードアップが起こります。音楽はランダムなノイズではありません。通常、これらの意味のある信号には、信号が取り得る可能な値の一部しかありません。これの専門用語は、情報が「スパース」であることです。SFTアルゴリズムは、考えられるすべてのデータストリームを処理することを目的としていないため、他の方法では利用できない特定のショートカットを使用できます。理論的には、スパース信号のみを処理できるアルゴリズムは、FFTよりもはるかに制限されています。しかし、「スパース性はどこにでもあります」と、電気工学およびコンピューターサイエンスの教授である共同発明者カタビは指摘します。「それは自然にある;それ」sビデオ信号; 音声信号に含まれています。」 ここで誰かがアルゴリズムが実際に何であるか、そしてそれがどこに適用可能かについてのより技術的な説明を提供できますか? 編集:いくつかのリンク: 論文:「ほぼ最適なスパースフーリエ変換」(arXiv)、Haitham Hassanieh、Piotr Indyk、Dina Katabi、Eric Price。 プロジェクトWebサイト -サンプル実装が含まれています。

10
最小のJPG圧縮可能なパターンは何ですか?(カメラの撮影布、スケール/角度/照明は異なる場合があります)
カメラの観点から、JPGで圧縮するのが非常に難しい布を設計しようとしています。その結果、サイズの大きなファイルが生成されます(または、ファイルサイズが固定されている場合、画質が低下します)。 布がカメラから遠く離れていたり、回転していても機能する必要があります(スケールが1倍から10倍まで変化する場合があります)。 ノイズは非常に良い(圧縮しにくい)が、遠くから見ると灰色になり、圧縮しやすくなる。良いパターンはフラクタルのようなもので、すべてのスケールで似ています。 葉は優れています(葉、小さな枝、小さな枝、大きな枝)が、使用する色が少なすぎます。 これが最初の試みです。 もっと最適なパターンがあるはずです。 六角形または三角形のテッセレーションの方がパフォーマンスが良いかもしれません。 JPGはY 'Cb Cr色空間を使用しますが、Cb Crも同様の方法で生成できると思いますが、カメラが明るい領域または暗い領域を飽和させるため、Y'(明るさ)の全範囲を均一に使用しない方が良いと思います(照明は完璧ではありません)。 質問:この問題に最適な布のパターンは何ですか?

5
点パターン認識
2つの異なるサイズのポイント(簡単にするために2D)の2つの異なるサイズを2つの異なるサイズの正方形に分散させると、問題は次のとおりです。 1- 小さいものから大きいものまでを見つける方法 2-次の図に示すように、発生をランク付けする方法についてのアイデアはありますか? 質問の簡単なデモンストレーションと望ましい解決策は次のとおりです。 更新1: 次の図は、調査中の問題のもう少し現実的なビューを示しています。 コメントに関して、次のプロパティが適用されます。 ポイントの正確な位置が利用可能です ポイントの正確なサイズが利用可能です サイズはゼロ(〜1)=ポイントのみ 白い背景にすべてのポイントが黒です グレースケール/アンチエイリアシング効果はありません 以下にendolith、いくつかの小さな変更を加えてで提示したメソッドの実装を示します(回転が小さくて高速なので、ソースではなくターゲットを回転しました)。以前にそれについて考えていたので、「endolith」の答えを受け入れました。RANSACについて私はこれまで経験がありません。さらに、RANSACの実装には多くのコードが必要です。


6
オーディオエンベロープの開始と停止の場所を検出する最も簡単な方法
以下は、話している人の録音を表す信号です。これに基づいて一連の小さなオーディオ信号を作成したいと思います。「重要な」サウンドの開始と終了を検出し、それらをマーカーに使用してオーディオの新しいスニペットを作成するという考え方です。言い換えれば、音声の「チャンク」がいつ開始または停止したかを示すインジケータとして無音を使用し、これに基づいて新しい音声バッファを作成したいと思います。 たとえば、ある人が自分自身を記録する場合 Hi [some silence] My name is Bob [some silence] How are you? 次に、これから3つのオーディオクリップを作成したいと思います。言うHiもの、言うMy name is Bobもの、言うものHow are you?。 私の最初のアイデアは、低振幅の領域がある場所を常にチェックするオーディオバッファーを実行することです。たぶん、最初の10個のサンプルを取得して値を平均し、結果が低い場合は無音としてラベル付けすることでこれを行うことができます。次の10個のサンプルをチェックして、バッファを進めていきます。この方法で増分することで、エンベロープの開始位置と停止位置を検出できました。 誰でも良い、しかしこれを行う簡単な方法についてアドバイスがあれば、それは素晴らしいことです。私の目的のために、解決策は非常に初歩的なことができます。 私はDSPのプロではありませんが、いくつかの基本的な概念を理解しています。また、プログラムでこれを行うので、アルゴリズムとデジタルサンプルについて話すのが最善です。 すべての助けてくれてありがとう! 編集1 これまでのところ素晴らしい反応です!ライブオーディオではないことを明確にしたかったので、ライブラリを使用するソリューションは実際には選択肢ではないため、CまたはObjective-Cでアルゴリズムを自分で記述します。

5
位相遅延と群遅延の違いは何ですか?
DSPを勉強していますが、位相遅延と群遅延の違いを理解するのに苦労しています。 どちらもフィルターを通過した正弦波の遅延時間を測定しているように思えます。 これを考えるのは正しいですか? その場合、2つの測定値はどのように異なりますか? 誰かが一方の測定がもう一方の測定よりも有用である状況の例を挙げることができますか? 更新 Julius Smithの「デジタルフィルターの概要」を読んで、2つの測定値が少なくとも異なる結果を与える状況を見つけました:アフィン位相フィルター。それは私の質問に対する部分的な答えだと思います。

6
エルゴードと定常の違いは何ですか?
これら2つの概念を区別するのに苦労しています。これは私の理解です。 定常プロセスは、統計的特性が時間とともに変化しない確率的プロセスです。厳密な意味での定常プロセスの場合、これは、その同時確率分布が一定であることを意味します。広義の定常プロセスの場合、これはその1次モーメントと2次モーメントが一定であることを意味します。 エルゴードプロセスとは、分散などの統計的特性を十分に長いサンプルから推定できるプロセスです。たとえば、十分に長く平均すると、サンプル平均は信号の真の平均に収束します。 さて、エルゴード的であるためには、信号が静止している必要があるように思えます。 また、エルゴディックではなく、どのような信号が静止している可能性がありますか? たとえば、信号がすべての時間で同じ分散を持っている場合、時間平均の分散がどのようにして真の値に収束しないのでしょうか? それでは、これら2つの概念の本当の違いは何ですか? エルゴード的でなくて静止しているプロセス、または静止していないでエルゴード的であるプロセスの例を教えてください。
41 random  ergodic 

1
食品瓶のラベルの画像を平らにする方法は?
食品の瓶のラベルの写真を撮り、ラベルが平らになるようにラベルを変換できるようにしたいです。右側と左側が画像の中央に合わせてサイズ変更されます。 理想的には、エッジを見つけて補正を適用するために、ラベルと背景のコントラストを使用したいと思います。それ以外の場合は、ユーザーに画像の角と辺を何らかの方法で識別するように依頼できます。 私は、球状に(私の場合は円筒状に)歪んだ画像を撮影し、画像を平坦化できる一般的な手法とアルゴリズムを探しています。現在、瓶またはボトルに巻き付けられているラベルの画像には、画像の右または左に後退するにつれて縮小する機能とテキストがあります。また、ラベルの端を示す線は、画像の中央でのみ平行であり、ラベルの左右の端で互いに向かって傾斜します。 画像を操作した後、まるで瓶や瓶にないときにラベルの写真を撮ったように、テキストと機能が均一なサイズになっているほぼ完璧な長方形を残したいと思います。 また、適切な修正を適用するために、この手法がラベルの端を自動的に検出できれば、それが欲しいです。それ以外の場合、ラベルの境界を示すようにユーザーに要求する必要があります。 私はすでにグーグルで検索して、次のような記事を見つけました: カーブしたドキュメントを平坦化するが、シンプルなカーブのラベルが必要なため、もう少しシンプルなものを探しています。

6
画像圧縮において、特定のウェーブレットが他のウェーブレットよりも「優れている」のはどのプロパティですか?
私は、ウェーブレット変換法を使用した画像圧縮について、より多くを学ぼうとしています。私の質問は次のとおりです。画像を圧縮するときにそれらを好ましいものにする特定のウェーブレットについてはどうですか?計算は簡単ですか?彼らはより滑らかな画像を生成しますか?等... 例:JPEG 2000はCohen-Daubechies-Feauveau 9/7 Waveletを使用しています...これはなぜですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.