タグ付けされた質問 「dct」

4
フーリエ変換とコサイン変換の違いは何ですか?
音声認識では、フロントエンドは一般に信号処理を行って、オーディオストリームからの特徴抽出を可能にします。このプロセスでは、離散フーリエ変換(DFT)が2回適用されます。最初はウィンドウ処理後です。このメルビニングが適用された後、別のフーリエ変換が行われます。 しかし、2番目の操作にDFTではなく離散コサイン変換(DCT)を使用することは、音声認識プログラム(たとえば、CMU Sphinxの既定のフロントエンド)で一般的であることに気付きました。これら2つの操作の違いは何ですか?なぜ初めてDFTを行い、次にDCTを2回目にするのですか?
75 dct  dft 

3
FFTによる高速コサイン変換
高速コサイン変換を実装したい。ウィキペディアで、FFTと同様に計算されるDCTの高速バージョンがあることを読みました。Scipyでも使用されているFTPACKおよびFFTWの実装について、引用されたMakhoul *の論文を読みましたが、実際のアルゴリズムを抽出できませんでした。これは私がこれまでに持っているものです: FFTコード: def fft(x): if x.size ==1: return x N = x.size x0 = my_fft(x[0:N:2]) x1 = my_fft(x[0+1:N:2]) k = numpy.arange(N/2) e = numpy.exp(-2j*numpy.pi*k/N) l = x0 + x1 * e r = x0 - x1 * e return numpy.hstack([l,r]) DCTコード: def dct(x): k = 0 N = x.size …
15 fft  dct 

2
DFTではなくDCTを音声振幅スペクトルに使用できますか?
私の理解では、DCTのビンサイズは同じサイズNのDFTの半分です。DFTには位相情報も含まれますが、振幅スペクトルのみが必要な場合、これはしばしば不要です。 DCTを使用して、DFTの2倍の密度(ビン間隔の半分)の振幅スペクトルを提供できますか、または位相がずれた情報が失われますか? 50%のオーバーラップでどうですか?
13 dct  dft 

1
DCTとPCAの関係
画像とビデオの圧縮に使用される2D 8x8 DCTの基本的な実装知識があります。主成分分析について読んでいると、PCAの方が明らかに一般的であるにもかかわらず、多くの類似性が見られます。以前DCTについて読んだとき、DFTに関連して常に提示されていました。私の質問は、PCTの観点からDCTをどのように導き出すことができるのでしょうか?(手作業での説明でも十分です) どうもありがとう

3
これはMFCC計算のDCTステップの正しい解釈ですか?
これはここでの議論の続きです。私はそこでコメントしますが、50人の担当者がいないので、新しい質問をしています。 MFCC計算プロセスのDCTステップを理解する方法は次のとおりです。その背後にある理論的根拠は、フィルターのオーバーラップにより、(フィルターバンクからの)対数スペクトルの大きさの相関を分離することです。本質的に、DCTはこれらの対数スペクトルの大きさによって与えられるスペクトル表現を平滑化します。 下の画像の青い線は、対数スペクトルの大きさのベクトルで表されるスペクトルを表し、赤い線は、DCT変換された後のベクトルであると言って間違いありませんか?
9 mfcc  dct 

3
DCTとハードしきい値処理
画像があり、DCTを見つけて、係数にハードしきい値処理を適用してから、IDCTを適用すると、ノイズが減衰します。誰かが詳細に説明したり、なぜこれが機能するのかについての答えを私に指摘したりできますか?高周波をブロックするフィルターがノイズ除去で機能する理由を理解していますが(ノイズは高周波成分で構成されていると想定しているため)、振幅のしきい値処理が機能するのはなぜですか?

1
高速DCT実装
次の2つの論文にある高速8x8 DCTアルゴリズム図に従う方法を理解するのに苦労しています。 (1)Chenらによる離散コサイン変換の高速計算アルゴリズム。 そして (2)Loefflerらによる11の乗算を伴う実用的な高速1-D DCTアルゴリズム。 特に、(2)のアルゴリズムを示す2番目の図は次のようになります。 このアルゴリズムの操作の説明は次のとおりです。 この定式化について私が持っているいくつかの質問があります、そして私は答えをどこに見つけるかわかりません: (2)このアルゴリズムは、ある値でスケーリングされるDCTを生成することを示唆しています C=2–√C=2C = \sqrt{2}。これは、CCCDC係数の計算における乗算を回避するために、任意に選択されました。本当に唯一の要件はCD CT∗C私D CT=4N2CDCT∗C私DCT=4N2C_{DCT} * C_{IDCT} = \frac{4}{N^2}。だから私の質問はこれです:このアルゴリズムを使用した出力係数のスケーリング係数は何ですか?それらはDCTの元の定義とは異なるように見えますが、どの程度かはわかりません(主に、この図と元のDCTの定式化の間に実際に関係が見られないためです)。 F(k )=2 c (k )NΣn = 0N− 1f(n )cos((2 n + 1 ) πk2 N)F(k)=2c(k)NΣん=0N−1f(ん)cos⁡((2ん+1)πk2N) F(k) = \frac{2c(k)}{N}\sum_{n = 0}^{N - 1}f(n)\cos\left(\frac{\left(2n + 1\right)\pi k}{2N}\right) どこ c (k )=12√c(k)=12c(k) = \frac{1}{\sqrt{2}} …
7 dct 

2
JPEGステガノグラフィー
Jereg of Derek Upham、Outguess of Neils Provos、およびF5(F3とF4の改善)のほか、PfitzmannとWestfeldのほかに、JPEG画像に情報を隠す方法として、他にどのような方法がありますか? 上記の方法では、圧縮前の画像のDCT係数でメッセージを非表示にします。ステガノグラフィーの実行に使用できるjpegの他のコンポーネントはありますか?ピクセル値は、PNGおよびBMP画像に使用できますが、圧縮後に変更されるため、JPEGには使用できません。 ありがとうございました。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.