ディープニューラルネットワークのセノンは何ですか？

9

私はこの論文を読んでいます。彼らがCD-DNN-HMM（隠れマルコフモデルを使用したコンテキスト依存のディープニューラルネットワーク）を使用するskypeトランスレータです。私はプロジェクトのアイデアと彼らが設計したアーキテクチャを理解することができますが、セノンは何なのかわかりません。定義を探していましたが、何も見つかりませんでした

—電話認識に深い信念ネットワークを使用する際の最近の進歩を活用する、大語彙音声認識（LVSR）の新しいコンテキスト依存（CD）モデルを提案します。出力としてセノン（結ばれたトライフォン状態）上の分布を生成するようにDNNをトレーニングする事前トレーニング済みのディープニューラルネットワークの隠れマルコフモデル（DNN-HMM）ハイブリッドアーキテクチャについて説明します

これについて説明をいただければ幸いです。

編集：

この定義はこのホワイトペーパーで見つかりました。

マルコフ状態でサブフォネティックイベントをモデル化し、音声の隠れマルコフモデルの状態を基本的なサブフォネティック単位であるsenoneとして扱うことを提案します。単語モデルは状態依存のセノンの連結であり、セノンは異なる単語モデル間で共有できます。

最初の論文のアーキテクチャの隠しマルコフモデル部分で使用されていると思います。それらはHMMの状態ですか？DNNの出力？

— ダビディバード
ソース

セノンは音声認識用語です。それはあなたが探している定義ですか、それともそれらがその論文でどのようにモデル化されているかについての説明ですか？

— ショーンイースター

DNN-HMMへの当時のアプリケーションのようなものです。それらは、HMMの状態ですが、DNNの出力でもありますか？

— davidivad

1

この記事では、セノンについて少し詳しく説明します... cmusphinx.sourceforge.net/wiki/tutorialconcepts

— Mike Hunter

7

これは私が最終的に理解したものです：

このアーキテクチャでは、DNNを使用してノイズを電話に変換します。

音声学および言語学では、電話という言葉は、言語の音韻におけるその位置に関係なく、物理的なイベントと見なされる任意のスピーチ音またはジェスチャーを指す場合があります。

DNNの最後の層は、すべての可能な電話によって形成され、電話ごとに1つの出力ニューロンがあります。これらのニューロンの活性化は、その電話に対応する入力ノイズの確率です。

これらのアクティブ化の組み合わせは、隠れマルコフモデルの入力であり、辞書を使用して候補テキストのリストを取得するHMMのセノンを確立します。

セノンはHMMの状態です。次の図では、セノンはx1 x2およびx3です。

私が何か間違ったことを言ったら私を訂正してください、それが役に立てば幸いです！

— ダビディバード
ソース

1

@daviddavid、私はセノンが何であるかをもう少し明確に説明するべき答えを追加しました。全体のセノン/音響モデリングの事柄は、文学では少し厄介です。

— Emiswelt 2018

2

音声認識では、特定の電話をモデル化するときに、近隣の電話に関するコンテキストを含めることがよくあります。私たちのシステムがために電話を知っているだけでなく、これは手段A、Bというように、代わりのコンセプトを持ちE-then-A、O-then-B、X-then-Aというように。

これらの文脈依存の単位は、文学ではセノンと呼ばれていますが、これはもちろん作り話です。

音声認識システムの場合、これらのセノンは通常、音響モデルのDMM / HMMハイブリッドアプローチが使用されている場合、ニューラルネットワークによって予測できる音響モデルのHMM状態に等しくなります。

セノンズという用語は、Janus音声認識ツールキットの開発者によって作成されました。その後、Dong YuとLi DengがASRブックとして採用しました。それは、NNが音響モデリングに使用される前の時代でした。したがって、用語は紛らわしいです。

— エミスウェルト
ソース

1

「セノンズ」は私が1992年に命名したものです。ICASSP1992の論文を参照してください。これは、IBMのフェノンとの対照から来ました。「f」は「フレーム」を意味し、私の「s」は「状態」を意味します。

— ファン・メイユウ
ソース

リンク切れの場合に備えて、リンクの完全な参照を追加してください

— アントワーヌ

0

最初のアイデアは、1991年のEurospeech（現在はInterspeechと呼ばれています）の作業から生まれました。そこでは、マルコフステートでトップダウンクラスタリングを使用しました。1991年の私のCMU技術レポートは、https：//www.semanticscholar.org/paper/Shared-distribution-hidden-Markov-models-for-speech-Hwang-Huang/33ea989f1655636162b7e9b8e0cfe3fcce92c37dにあります。

1992年に、私はそれをツリークラスタリングに移動して、目に見えないcdフォンもモデル化できるようにすることにしました。

— ファン・メイユウ
ソース

リンク切れの場合に備えて、リンクの完全な参照を追加してください

— アントワーヌ