ほとんどのスマートアシスタントが、ウェイクワードのカスタマイズをほとんど提供しないのはなぜですか?


14

Amazon EchoやGoogle Homeなどのスマートアシスタントブランドの大部分は、ウェイクワード(ユーザーが聞くようにデバイスをウェイクアップするために使用するフレーズ)をカスタマイズする方法をほとんど提供していません。

たとえば、Alexaは3つの選択肢のみを提供し、Google Homeは「OK Google」のみをサポートします。多くのユーザーは、カスタムウェイクワードのアイデアに興味を持っているようですが、主要ブランドはどれもサポートを追加していません。

ウェイクワードのカスタマイズを制限する技術的な理由はありますか、それとも単にブランディングの選択ですか?

「OK Google」を使用するGoogleの動機について読んだことがありますが、これはブランディングのアイデアが正しいかもしれないことを示唆していますが、ウェイクワードの認識はあまり正確はなく、おそらく技術的な理由を示しているようです。誰がどの要因が主な理由であるかを明確にできますか?


2
覚えておくべきことの1つは、そのように起動する処理は、非常に低電力の常時オンドメインで実行する必要があることです。一部の大規模SoC(特に電話で使用されるもの)には、このタスクに使用できる専用ハードウェアがあります。そして、フィルタ係数/その他のパラメータは慎重に計算され、そのハードウェアにロードされると想定しています。どのSoC Echoが実行されているかは忘れていますが、同様のフィルターが存在すると思います。アルゴリズムのクラスの名前は、現時点で私にエスケープされる
Krunalデサイ

回答:


12

はい、いくつかの理由があります。

このブログ投稿では、エコーと目覚ましの言葉Alexaについて説明しています。少し要約します。

ウェイクワード認識は、ローカルでリアルタイムに行わます。明らかな処理の制限により、ウェイクワードの長さが制限されます。さらに、ユーザーは、スマートアシスタントをアクティブにするための詩を暗唱したくありません。したがって、短くする必要があります。

呼び出されたときはほぼ100%の精度で動作し、呼び出されていないときは確実に認識されない必要があります。これにより問題が発生し、ウェイクワードの長さが最小になります。Echoを許可するというAmazonの選択は、2つの音節にすぎないため、非常に驚​​くべきことです。

通常の容疑者を見ると、Alexa(3音節)、Amazon(3)、Echo(2)、Ok Google(4)、Hey Cortana(4)、およびHey Siri(3)があります。すべての業界の巨人は、3つが音節の適切な選択数であることにほぼ同意しています。

奇妙なことに、最も必要なウェイクワード「コンピューター」にも3つの音節があり、その要件に簡単に一致します。また、商標ではありません。

ブログ(およびその理由)から、誤検知を避けたいと考えています。Computer、Siri、Cortana、Alexaという言葉がどのように確立されているかを見てみましょう。これは2008年のGoogleブックコーパスです。

NgramコンピューターがAlexaとSiriを凌

まさに、SiriとAlexaはコンピューターに対して事実上フラットライン化されており、Cortanaはエラーを出します。見つかりません。コーパスは2008年のものであるため、理にかなっています。コンピューターがなぜひどい目覚めの言葉であるかについて、もう少し詳しく説明するために、別のグラフを作成します。

ngramのコンピューターと他の単語

このNgramは、2016年の2つの最も人気のある米国の赤ちゃんの名前(通貨)を示しています。また、トムとデイブもコンピューターに対してフラットラインを示しています。女王、バスケットボール、警察は適切に登録できます。とにかく、これはコンピューター、アールグレイ、ホットがこれまで許可されなかった理由を私たちに与えてくれます。人々はコンピューターという言葉を頻繁に使用します。

誤検知に関するもう1つのこと。アレクサは、だれも言うことのない事実上韻を踏む。

Alexaで韻を踏む19のこと

コンピューターは74のことで韻を踏む。



2
「私は鳥とセックスします...あなたはアレクサではありません!」
デビッドは、モニカを復活させる

1
「OK Google」は4つの音節(「oh kay goo gull」)であり、3つではなく、それ以上の音素です。
モンティハーダー

1
Alexaはつまらないファーストネームです...私は個人的にはその名前を持つ2人を知っています。そのうちの1人はいとこです。エコーは私の言語でそのまま使用されます。また、電話などでエコーが発生すると「エコーがあります」とよく言います。そして、アマゾンは川/古い部族の名前で、私のようなロールプレイの男は比較的頻繁に言います。彼らは本当にこれを台無しにしました。
オリヴィエグレゴワール

2
「コンピュータ」という言葉が機能しない理由の説明を買うかどうかはわかりません。単語自体が認識されている唯一のものではありません。発話の最初の単語であり、一時停止が続くことも、コマンドワードを識別する重要な情報です。
ケビンクルムウィーデ

2

ウェイクワードのカスタマイズを制限する技術的な理由はありますか

アシスタントデバイスが使用されていない場合、アプリケーションプロセッサ(AlexaおよびGoogle Homeの場合はARMと思われます)が中断され、可能な限り低い電力状態になります。ウェイクワードの検出は、周囲のノイズ/音声をリッスンし、ウェイクワードに一致するかどうかを判断するアルゴリズムを実行する非常に電力効率の高いDSPに任されています。十分な信頼性のある一致が見つかった場合、DSPはARMコアを起動して、残りの処理を開始します。

目標は電力効率の向上であるため、問題のDSPはアルゴリズムを実行し、メインのオンボードRAMではなくオンチップメモリ​​にテンプレートパターンを保存します。これにより、システムはDDR RAMを最低電力状態にすることさえできます。

DSPにはいくつかの重要なこととオンチップメモリ​​がほとんどないため、アシスタントウェイクワードは、アルゴリズムによって高い信頼性で照合できる少数の選択的なワードに制限されます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.