チャットボットをトレーニングする最新の方法は何ですか?


11

テキスト入力を使用し、いくつかのカテゴリを記憶し、それに応じて質問に答えるボットをトレーニングしたいと思います。また、バージョン2.0として、ボットに音声入力にも応答できるようにしたいと考えています。同じで利用できる最新の機械学習/ AIアルゴリズムはどれですか?私にお知らせください。


動的メモリニューラルネットワークをチェックする
riemann77

有理数学マッピングの使用を検討してください。
セルゲイ

回答:


1

あなたの質問は信じられないほど幅広いので、それに応じて、私が検討することをお勧めする2つの広範なフレームワークは次のとおりです。

  1. 最先端のチャットボット会話開発のためにhttp://rasa.aiは、従来のルールベースのシステムよりも適応性の高いオープンソースフレームワークです。
  2. 音声認識については、オープンソースでもあるhttps://discourse.mozilla.org/c/deep-speechをチェックしてください

0

ボットがいくつかのカテゴリを「記憶」していて、質問に答える場合、現在のシナリオではまったく役に立ちません。その場合、別のデータセット(テストセット)ではパフォーマンスが非常に低下するためです。統計用語では「オーバーフィッティング」と呼ばれています。そして、質問応答に来ると、「最先端の」アルゴリズムを定義する経験則はありません。ただし、動的メモリネットワークやseQ2seQモデルなど、babiまたは同様のデータセットで良好に機能するいくつかのモデルを確認できます。この分野の基本的なアイデアを得るには、基本的な機械学習の専門用語を学び、その後、高度な自然言語処理コースに進むことをお勧めします(スタンフォード大学はcs224nを提供しています)。


0

アブシャワー&アトウェル州:

チャットボットは、自然言語を使用して順番にユーザーと対話する会話型エージェントです。さまざまなチャットボットや人間とコンピューターの対話システムが、音声またはテキストによるコミュニケーションを使用して開発され、言語研究、言語教育、カスタマーサービス、Webサイトヘルプなどのさまざまな分野に適用されています。

彼らや他の論文は、この執筆時点でのチャットボットのトレーニングに対する多くの現代的なアプローチのいくつかを伝えています。

Natural Dialogue Corporaからのチャットボットトレーニングデータの自動抽出、Bayan AbuShawar、Eric Atwell、2016年

ただし、ほとんどのチャットボットは、ファイルに手動で記述されている知識と、記述または話されている特定の自然言語に制限されています。このペーパーでは、機械で読み取り可能なテキスト(コーパス)を特定のチャットボット形式に変換するために開発したプログラムを紹介します。これを使用して、チャットボットを再トレーニングし、人間の言語に近いチャットを生成します。異なるコーパスが使用されました。イギリス英語コーパス(BNC)などの対話コーパス。聖典のイスラームコーランは、聖句とそれに続く聖句が順番に並んだ独白コーパスです。質問と回答が順番になっているFAQ。この自動化プロセスの主な目的は、コーパスに基づいてさまざまな言語を話すさまざまなチャットボットプロトタイプを生成する機能です。

パラメーター化された補助強化学習によるコンテキスト不確実性を意識したチャットボットアクションの選択、Chuandong Yin、Rui Zhang、Jianzhong Qi、Yu Sun、およびTenglun Tan、2018

コンテキストの不確実性を意識したチャットボットとチャットボットをトレーニングする強化学習(RL)モデルを提案します。提案されたモデルは、Parameterized Auxiliary Asynchronous Advantage Actor Critic(PA4C)という名前です。ユーザーシミュレーターを使用して、会話コンテキストにおけるユーザーの発話の信頼度の不確実性をシミュレートします。素朴なルールベースのアプローチと比較して、PA4Cモデルを介してトレーニングされたチャットボットは、手作りのアクションの選択を回避し、ユーザーの発話の変化に対してより堅牢です。PA4Cモデルは、アクションボタニゼーションとチャットボットトレーニングの補助タスクを使用して従来のRLモデルを最適化します。これは、大きなアクションスペースとゼロ報酬状態の問題に対処します。カレンダーイベントの作成タスク用のチャットボットのトレーニングについて、PA4Cモデルを評価します。

Chatbot Interactionを使用した教師あり学習システムのトレーニング、米国特許出願公開0034828 A1、International Business Machines Corporation、アーモンク、ニューヨーク、米国、2019

データポイントのパラメーターを決定するためにデータポイントを受信して​​分析し、データポイントの分析に基づいてアラートチケットを生成し、チャットボットを介してアラートチケットに含まれる少なくともいくつかの情報を1つに通信することを含むコンピューター実装方法以上のユーザー、およびチャットボットを介して、データポイントを生成したデバイスの動作に基づいてアラートチケットを生成したデータポイントを分類します。ジョナサンA。カガダス、アレクサンダーD.ルイット、サイモンD.ミクルシク、カランシュクラ、リーA.ウィリアムソン

小さな対話コーパスを使用して生成チャットボットを実装するための2ステップトレーニングと混合エンコード/デコード、Jimae Kim、Hyeon-Gu Lee、Harksoo Kim、Yeonsoo Lee、Young-Gil Kim、2016

シーケンス間ネットワークに基づく生成チャットボットモデルは、巨大な対話コーパスがトレーニングデータとして使用される場合、自然な会話の相互作用を生成できます。ただし、英語や中国語などのいくつかの言語を除いて、大きな対話コーパスを収集することは依然として困難です。この問題に対処するために、エンコーディングとデコーディングの単位として単語と音節の混合を使用するチャットボットモデルを提案します。さらに、大規模な非対話コーパスを使用した事前トレーニングと、小さな対話コーパスを使用した再トレーニングを含む、2ステップのトレーニング方法を提案します。私たちの実験では、混合単位は語彙外(OOV)の問題を減らすのに役立つことが示されました。さらに、2段階トレーニング方法は、チャットボットが小さな対話コーパス(533、

文の埋め込み基づく目標指向のチャットボットトレーニングのための部分モジュール性にヒントを得たデータ選択、Mladen Dimovski、Claudiu Musat、Vladimir Ilievski、Andreea Hossmann、Michael Baeriswyl、2018

目標指向のチャットボットやパーソナルアシスタントなどの音声言語理解(SLU)システムは、初期の自然言語理解(NLU)モジュールに依存して意図を特定し、入力として受け取るユーザークエリから関連情報を抽出します。SLUシステムは通常、ユーザーが比較的狭いドメインで問題を解決するのに役立ち、大量のドメイン内トレーニングデータを必要とします。これは、成功するシステムの開発を妨げる重大なデータ可用性の問題につながります。この問題を緩和するために、少ないデータレジームでのデータ選択の手法を提案します。部分モジュラリティにインスパイアされたデータランキング関数、比率ペナルティ限界ゲイン、テキストの埋め込みスペースから抽出された情報のみに基づいて、ラベル付けするデータポイントを選択します。埋め込みスペース内の距離が、データ選択に使用できる実行可能な情報源であることを示します。私たちの方法は、2つの既知のアクティブな学習手法よりも優れており、NLUユニットのコスト効率の高いトレーニングを可能にします。さらに、提案された選択手法では、モデルを選択ステップの間に再トレーニングする必要がないため、時間効率もよくなります。


-1

LSTMまたはGRUをメモリセルとして使用したリカレントニューラルネットや、Word2vecのような単語の埋め込みを使用できます。ビーム検索および注意モデルは、RNNとともに使用して、より堅牢でバイアスを少なくすることもできます。しかし、これらのアウトプットは、この分野の研究がまだ熱く、解明されるべき多くのものである場合にのみ、ある程度まで認められます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.