タグ付けされた質問 「sound」

5
「Lena」、「Mandrill」、「Cameraman」などの画像の音声相当物は何ですか?
これらの画像を何と呼ぶか​​わかりませんが、画像処理の世界では、特定の操作の出力を表示するための標準的な例として頻繁に使用されています。Lenaを「標準テストイメージ」として説明しているページへのリンクを次に示します。特定のオーディオフィルターまたは操作の効果を示すために使用される類似の標準的なオーディオクリップはありますか?

3
2台のコンピューター間で音声でデータを送信します(非常に近い距離)
私は、2台のコンピューター間でサウンドを介してデータを送信する例を作成しています。いくつかの要件: 距離が非常に近い。つまり、2台のコンピューターは基本的に互いに隣接している ノイズが非常に少ない(先生がノイズソースとしてロックソングをオンにするとは思わない) エラーは許容されます。たとえば、「無線通信」を送信した場合、他のコンピューターが「RadiQ通信」を受信した場合も同様に問題ありません。 可能であれば:ヘッダー、フラグ、チェックサムなどはありません。サウンドを介してデータを送信する基本を示す非常に基本的な例が必要なためです。派手になる必要はありません。 このリンクに従って、オーディオ周波数シフトキーイングを使用してみました。 ラボ5 APRS(自動パッケージレポートシステム) そしていくつかの結果を得ました: 私のGithubページ しかし、それだけでは十分ではありません。クロックリカバリ、同期の方法がわかりません...(リンクにはタイミングリカバリメカニズムとしてフェーズロックループがありますが、明らかに十分ではありませんでした)。 だから私はもっと簡単なアプローチを見つけるべきだと思う。ここにリンクを見つけました: データを音声に変換して戻します。ソースコードによる変調/復調 しかし、OPは回答で提案されたメソッドを実装していなかったため、非常に複雑になる可能性があります。また、私は答えで提案されているデコード方法を明確に理解していません: デコーダはもう少し複雑ですが、概要は次のとおりです。 必要に応じて、サンプリングされた信号を11Khz付近でバンドパスフィルターします。これにより、ノイズの多い環境でパフォーマンスが向上します。FIRフィルターは非常にシンプルで、フィルターを生成するオンラインデザインアプレットがいくつかあります。 信号をしきい値処理します。最大振幅の1/2を超える値はすべて1で、以下の値はすべて0です。これは、信号全体をサンプリングしたことを前提としています。これがリアルタイムの場合は、固定のしきい値を選択するか、一定の時間にわたって最大信号レベルを追跡する何らかの自動ゲイン制御を行います。 ドットまたはダッシュの開始をスキャンします。サンプルをドットと見なすために、ドット期間に少なくとも一定数の1を表示することをお勧めします。次に、スキャンを続けて、これがダッシュかどうかを確認します。完全な信号を期待しないでください。1の真ん中にいくつかの0が表示され、0の真ん中にいくつかの1が表示されます。ノイズがほとんどない場合、「オン」期間と「オフ」期間を区別するのはかなり簡単です。 次に、上記のプロセスを逆にします。ダッシュが1ビットをバッファにプッシュする場合、ドットが0をプッシュする場合。 ドットとして分類する前に1がいくつあるのかわかりません。そのため、今のところわからないことがたくさんあります。プロセスを理解できるように、音声でデータを送信する簡単な方法を提案してください。どうもありがとうございました :) 更新: (ある程度)動作しているように見えるMatlabコードをいくつか作成しました。まず、振幅シフトキーイング(サンプリング周波数48000 Hz、F_on = 5000 Hz、ビットレート= 10ビット/秒)を使用して信号を変調し、次にヘッダーと終了シーケンスを追加します(もちろん変調もします)。ヘッダーと終了シーケンスはアドホックベースで選択されました(そう、ハックでした)。 header = [0 0 1 0 1 1 1 1 1 0 0 0 0 0 0 1 1 0 0 0 …
12 audio  modulation  sound  fsk 

2
自然なサウンドのためのサウンド合成エフェクト
現在、アコーディオンシンセサイザーに取り組んでいますが、できるだけ自然に聞こえるようにしたいと思っています。 私は次の波の音が本当に好きです: https://dl.dropbox.com/u/20437903/onda%20acordeon.wav 波は次のようになります。 波を見ると、高調波が追加および減算されているように見えます。私が間違っている? サウンドシンセシスは少し新しいので、波に適用された効果とそれらを適用するためのガイダンスを特定できる人を助けていただければ幸いです。ありがとう。
12 music  sound 


2
Sound FSK / PSK / DSSSを介したPC間のデータ通信
楽しさと仕事のために、PCのスピーカーを使用して音声またはデータをエンコードして送信できるJavaベースのアプリケーションを実装する必要があります。受信側には、デコーダーソフトウェア付きのマイクがあります。 私は実装にFSK(synまたはasyncまたは提案)を使用することを考えていました: テキスト(データ)--- modulate ---> 10khz-20khzオーディオ搬送波--->無線伝送--->マイク->復調--->テキストまたはデータを表示します。 私の主な考慮事項は次のとおりです。 帯域幅が200bps以下の場合 特定のレベルまでのノイズに強い できれば16khz-20khzの搬送波で44.1khzのサンプリング(この領域ではノイズが少なく、高齢者やマイクにはあまり聞こえません。スピーカーは安価で、ラップトップですぐに利用できます) コーディングロジックが複雑すぎないこと。 最小限のコーディング作業でどの変調が最も効果的に機能しますか?Javaを使用してFSK / BFSK / PSKまたはDSSSを実現するためのライブラリ/サンプルに関する推奨事項はありますか?

5
なぜ高周波をゼロにしたときにこのパチパチというノイズが出るのですか?
私は最近フーリエ変換を使って遊んでいます(数週間かけてその背後にある数学について学びました)。私は次のサウンドバイトにローパスフィルターを組み合わせてハックすることにしました: 特に、私はフーリエ変換を取り、周波数の最高の1/2をゼロにしてから、逆フーリエ変換を行いました。これは私が得たものです なぜパチパチという音がするのですか?

3
Siriは「Hey Siri」と言って私をどのように認識しますか?
私は私のiPhoneは、継続的に言って、私のためにリスニングできる方法を理解しようとしていますHey Siri、Alexa、Hey CortanaまたはOkay Googleすぐに私のバッテリーを下に排出せず。 2種類のアルゴリズムを想像しました。10 ms幅のスライスなどの時間のスライスを200 msごとに記録し、特定の周波数で同期検出を実行するもの。ただし、これらのパラメータは私の声の特性に強く依存します。さらに、それは絶えずHey Siriどこかの真ん中で一致することを試み続けるためにそれでも多くのCPUパワーを消費します。 どのような効率的な低電力アルゴリズム/実装(ハードウェアまたはソフトウェア)がこのようなタスクを実行できますか? これはどういうわけか私が思うこの特許に関連しています:https : //www.google.com/patents/US20160253997 隠れたマルコフモデルについての記事をいくつか読んだが、それが非常に低消費電力のアプローチであるとは思えない。

1
私たちの脳は常に聞き取るのを盗みますか?
私の理解から、私たちの耳は、私たちの聴覚範囲内の周波数で共鳴する蝸牛の毛/繊毛を持っています。これは、時間領域ではなく周波数領域で聞いていることを意味します。しかし、それは私たちがそれを処理するために常に音を盗んでいることを意味しますか?
7 fft  sound  ifft 

2
PCMストリームのラウドネス
PCMサンプルを1チャネルのストリーム(8000サンプル/秒)で受信しています。私は次の1000サンプルごとにabs値を追加して1000であるサンプル数で除算することにより信号の「力」を計算することでラウドネスを見つける方法を見つけました。サンプルの値は常に蓄積され、とんでもない値に到達するようです...だから私はそこで何か悪いことをしていると思います。面白いことに、計算が狂ってしまうと、手で「サウンド入力デバイス」を押すと、すべてが正常に戻ります;) とにかく。私の質問は、PCMサンプルのセットのラウドネスを適切に計算する方法ですか?
7 audio  sound 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.