タグ付けされた質問 「algorithms」

アルゴリズムは、信号を処理するための明確に定義された命令のステップの有限リストで表される方法です。

4
産業用マシンビジョンシステムにおけるソフトウェアとメカニクス/光学系のトレードオフに関する参考文献はありますか?
簡単な例で質問を説明します。 これらの主な要件を備えたアイテムの自動検査用の産業用ビジョンシステムを設計できます。 良い作品の画像は黒い背景で、作品は灰色でなければなりません。 欠陥は灰色の領域内に白い領域として表示される必要があります。 これらの要件により、システムのソフトウェア部分が大幅に簡素化されます。アイテムを不良品として分類するために、アルゴリズムは白いピクセルを数えるだけです。 しかし、この簡単なアルゴリズムを実現するには、システムの照明/光学/機械部分の設計が非常に上手でなければならず、その部分はソフトウェアよりもコストがかかるかもしれません。 たぶん過去に、「メカニックはできるだけ使い、ソフトウェアはできるだけ使いません」のような文章を読んだかもしれません。1990年代(または1980年代)の実用的なマシンビジョンに関する本に載っていたようですが、適切な引用/参照が見つかりません。

2
隠れマルコフモデルはどのような機械学習アルゴリズムですか?
信号処理クラスで自動音声認識にHidden Markov Modelアルゴリズムを使用しました。機械学習に関する文献を見ると、アルゴリズムは「分類」、「クラスタリング」、または「回帰」に分類されていることがわかります。HMMはどのバケットに分類されますか?文献にリストされている隠れたマルコフモデルには出くわしませんでした。
12 algorithms 

1
音声が人間の音声にどの程度似ているかを判断する
この問題への答えを探している間、このボードが見つけたので、この質問を Stack Overflowからクロスポストすることにしました。 私は、音声セグメントと人間の声の類似性を判定する方法を探しています。これは数値で表現されています。 私はかなり検索しましたが、私がこれまでに見つけたもの(詳細は下記)は、私が必要とするものに実際には合いません。 1つの方法は、音声認識ソフトウェアを使用して音声セグメントから単語を取得することです。ただし、この方法では、人間の発話に対する「類似した」音声を思い付くことができません。多くの場合、音声に単語があるかどうかを判断できますが、明確な単語がない場合、音声がそのような単語を持っていることを近くに伝えることはできません。例:CMU Sphinx、Dragonfly、SHoUT より有望な方法は、音声アクティビティ検出(VAD)と呼ばれます。ただし、これには同じ問題がある傾向があります。VADを使用するアルゴリズム/プログラムは、アクティビティのしきい値に達したかどうかを返すだけで、そのようなしきい値の前後に「類似性」値はありません。あるいは、多くの人は人間の音声との類似性ではなく、音量だけを探します。例:Speex、Listener、FreeSWITCH 何か案は?

2
ノイズの多い.wavファイルでドラムbpmを検出する
次の問題を解決するためのアルゴリズムを探しています:ノイズの多い.wavサウンドキャプチャ(マイクの風+摩擦音)がある場合、ソフトドラムビートのBPMを検出する方法は? 対象をグーグルで検索しようとしましたが、分析と指紋ID生成の両方のためのmp3関連ソフトウェアが大量にあるため、結果はかなり貧弱です。それらのどれも実際にそれを行う方法に関する情報を提供しません。 ノイズを除去するアルゴリズムは知っていますが、それでもBPMを検出する問題が残ります。また、BPMの問題の解決方法によっては、ノイズを除去する必要さえない可能性があります(ドラムは低周波数になり、ノイズは高周波数になる傾向があるため、単純なローパスで十分な前処理が可能です)。

1
曲内の数学関数を認識する
私はDSPを初めて使用しますが、このStackExchangeを発見したばかりなので、この質問を投稿するのにふさわしくない場合はおologiesびします。 より数学的な用語でジャンルを説明するリソースはありますか?たとえば、曲のこのセクションの信号でFFTを実行した場合(リンクがそこから開始しない場合は2:09)、このセクションにその大まかな種類があることを検出できる方法はありますか音の?このような音は、私が比較できる数学関数に従っていますか? http://www.youtube.com/watch?v=SFu2DfPDGeU&feature=player_detailpage#t=130s(リンクはすぐにサウンドの再生を開始します) 教師あり学習テクニックを使用する唯一の方法ですか、それとも別のアプローチがありますか(好ましくは、監視を必要としません)? アドバイスありがとうございます。


5
オーディオのダブル(64ビット)浮動小数点を検討する場合
最新のプロセッサでオーディオを合成して処理するとき、単精度(32ビット)浮動小数点以外の使用を検討するのはいつですか。明らかに、現実世界に出入りするオーディオは16/24ビットなので、ソフトウェアでの信号(オーディオ自体とフィルター係数のようなものの両方)の精度について話しているだけです。 と仮定する: CPU / DSPには、単精度と倍精度の両方のハードウェア浮動小数点サポートがあります。 優先事項は、高性能ではなく高品質のオーディオです。たとえば、より良い(知覚的)品質を提供する場合は、倍精度が考慮されます。

2
高品質のリバーブアルゴリズム
私はこのサイトを少し検索しましたが、驚くべきことに、関連する情報はあまり見つかりませんでした。DSPに関する私の知識は非常に限られています。 私の目標は非常に単純です。C++でアルゴリズムのリバーブをプログラムしたいのですが、これは本当にいいですね。より正確には、最良のオプションは、エンドユーザーが品質とCPU使用量の間のトレードオフを選択できるようにすることです。 これまでにわかったことから、リバーブを作成するには、ドライ信号をアーリーリフレクションアルゴリズムに送り、次にレイトリフレクションアルゴに送る必要があります。これは正しいです ? 今、私はフィードバック遅延ネットワーク(時変フィードバック遅延ネットワークを使用した人工反響要件の削減)を使用して、遅延反射部分に関する広範な記事を見つけました。私が読んだことから、FDNは高品質であり、後期反射をシミュレートする(CPUの観点から)あまりに拡張的ではありません。さらに、遅延線の数を変更することで、品質とCPUのチャージのトレードオフを制御できると思います。 ただし、初期反射アルゴリズムをどのようにプログラムするかはまったくわかりません(覚えていますか?DSPドメインでは本当に無知です)。 一種のマルチディレイを使用することは私には論理的に聞こえます。これはプログラミングが簡単で、計算コストが安いという利点があります。しかし、それは本当であるには単純すぎるように思えます。 さらに、本能は、1つまたは複数のフィルターを信号パスのどこかに含める必要があることを教えてくれます。 誰かがこのトピックを少し明確にしてくれませんか? 2つのメモ: 私はコンボリューション・リバーブをまったく望んでいません。リバーブのリアリズムについては特に気にしませんが、代わりに、CPUに飢えたリバーブではなく、良いサウンドで微調整可能なサウンドを求めています。 また、コーディングの部分は私を心配するものではありません、そうでなければスタックオーバーフローについて尋ねます。それは本当にDSPの部分であり、まさにその部分です:)
11 algorithms 

3
音声分析の自己相関
私はAutocorrelationについて読んでいますが、それがどのように機能し、どのような出力を期待する必要があるかを正確に理解できていません。私は自分の信号をAC機能に入力し、スライディングウィンドウを入力する必要があると思いますか。各ウィンドウ(たとえば、1024サンプル)は、-1と1の間の係数を出力します。符号は、ラインが上向きか下向きかを示し、値は相関の強さを示します。簡単にするために、オーバーラップはなく、ウィンドウを毎回1024サンプルだけ移動するとします。44100のサンプルでは、​​43の係数を取得しますが、それらすべてを保持する必要がありますか? 200秒の信号に対してこれを実行すると、8600の係数が得られます。これらの係数を使用して繰り返しとテンポを検出するにはどうすればよいですか?それらをグループ化するためにある種のニューラルネットワークを作成する必要がありますか、それともやりすぎですか? 助けてくれてありがとう。

3
曲線間の一致を測定する方法は?
測定したRSSI値と比較したい、予想されるRSSI値の経時的な値(以下にプロット)があります。私が探していたのは、それを定量化してパラメーターを変更し、さまざまなアプローチを比較/対比できるようにする方法でした。 信号を比較する方法がわかりませんが、信号の大規模(全体的な形状)と小規模(個別の変動)を考慮に入れるため、これは私の心の中で難しい問題です。 たとえば、以下は1セットの信号のプロットです。 画像では、赤い測定信号がおおまかにモデルに従っていることを確認できますが、モデルの正弦波品質のいくつか(一部の場所)をシミュレートするOKジョブも実行しています。何かご意見は? <>ピシェネットのコメント(妥当と思われる)に応じて、2つの値のdiffをとり、abs(fft(diff))をプロットして、次のようにしました。 私はそれをどうするかわかりません。実際の周波数はないため、軸をスケーリングする方法がわかりません。その場合、どのメトリックを使用しますか?

2
Photoshopの「白黒」調整レイヤーの背後にあるアルゴリズムは何ですか?
フォトショップの「白黒」調整レイヤーの背後にあるアルゴリズムについて誰かが説明できますか? 画像から赤/マゼンタではないピクセルを強調するアプリケーション(パーセントのような構成可能な許容誤差を使用)をC ++を使用して再現する必要があり、このリソースは私が期待する動作を示しました。 それでも再現できませんでしたが、手がかりを見つけました。 各ピクセルは、最大2つのコントロール、1つの加算(RGB)と1つの減算(CMY)によって定義されます。

1
Aウェイトの適用
特定の信号のラウドネスを計算したいのですが、このスレッドに出くわしました。A-Weightingの側面について少し混乱しています。画像を投稿することはできませんが、このサイトには必要な計算式があると思います。(Wa = 10log ...) 私が理解していないのは、実際にプログラムでそれを使用する方法です。f頻度を表す場合、値は一定のままであるため、おそらく値をハードコードできます。その場合、Waサンプル値にどのように適用し、どの値を使用しますか?パワースペクトルを計算してWINDOW_SIZE/2値を取得し、周波数帯域の各値に関連する事前計算された値を掛けWaますか、それとも間違った方法ですか?前もって感謝します。
11 algorithms  audio 

4
ボコーダーのプログラミング
"Songify"のような自分のボコーダーシンセサイザーをプログラムしたいのですが、ボコーダーアルゴリズムの単純なアルゴリズムが見つかりません。多分あなたはボコーダーがどのように機能するかについての情報を探す場所を説明したり教えたりすることができます。

3
デジタルディストーションエフェクトアルゴリズム
私はUdoZölzerによる124〜125ページのディストーションエフェクトについてのDAFXブックを読みましたが、ディストーションの適切なシミュレーションは関数によって与えられると述べています。 f(x)=x|x|(1−ex2/|x|)f(x)=x|x|(1−ex2/|x|)f(x)=\frac{x}{|x|}\left(1-e^{x^2/|x|}\right) 誰かがこの式と私たちが得る信号の種類を説明できますか? 私が理解していることから、「x」はサンプリングされた信号なので、これは一連の数値です。| x |とは 平均?各サンプル値のxの絶対値を参照していますか? したがって、この歪み効果のシミュレーションを実装したい場合は、 xの長さを知る必要があります(サンプル数で指定されます) ループでは、サンプル値ごとにこの式を計算する必要があります ループが終了した後、歪んだ信号が(デジタル形式で)表示されます その後、聞こえるようにアナログ信号に変換する必要があります。

1
水中ソナーに適応しきい値アルゴリズムを実装するにはどうすればよいですか
水中ソナーレシーバーで受信したデータをフィルター処理するために、MATLABで適応しきい値アルゴリズムを実装したいと考えています。受信したデータには、水中ノイズと鏡面反射によるインタラクティブなノイズ成分が含まれています。CFARDメソッドは近いですが、私の目的を果たしません。ソナーのスキャン深度内の水中に配置されたオブジェクトを画面上で確認できるように、データを画像化する必要があります。どんな助けでも大歓迎です。 編集: 水中環境です。トランスデューサーと同じ環境にある固体ターゲットによって反射された後、ソナートランスデューサーから受信した信号にしきい値を設定しようとしています。問題は水中音響イメージングソナードメインに属しています。問題は、水中の環境騒音をモデル化できなかったことです。このトピックについて今まで読んだことから、ノイズモデルは分布に従いますKKK。また、環境ノイズは本質的に加法的ではなく、インタラクティブです。したがって、しきい値は適応可能でなければなりません。質問ではCFARDメソッドについても触れました。高エネルギーの広い領域で単一のポイントを見つけることに関心があるだけなので、これはレーダーアプリケーションでの信号処理に役立ちます。水中音響イメージングソナーについても同じことが言えません。そこでは、ターゲットを画面にビデオとして表示しようとします。私はそれを今より明確にしたと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.