機械翻訳の実際の品質はどうですか?


27

今日まで、私はAIの素人として、自動翻訳の約束された達成された改善に混乱しています。

私の印象は、まだ非常に遠い道のりがあるということです。または、非常に単純なウィキペディアの記事の自動翻訳(たとえばGoogleが提供および提供)がまだ主に愚かで読みやすく、ほとんど読めず、非常に部分的に有用で有用な理由は他にありますか?

個人の好み(読みやすさ、有用性、有用性)に依存するかもしれませんが、私の個人的な期待は非常に失望します。

他の方法:Googleの翻訳は、それでも大多数のユーザーにとって読みやすく、有用で、有用ですか?

または、Googleにその成果保持する理由があります(そして、ユーザーに表示できる最高のものを表示しないようにします)。


予備的な結果:私たちは、文字通りのレベルでのみ、対等な立場と理解で人工知能と話をすることはまだできません。それでは、なぜ私たちは恐れる必要がありますか?そのため、彼らはより多くの私たちが知っているよりも知っているが、我々は知りませんか- ?


2
機械翻訳は、特に現代の技術では翻訳対象のテキストを理解しようとしないため、難しい問題です。これは多くの場合多かれ少なかれ機能しますが、見事に失敗することもあります。私は個人的に、それを念頭に置いて、ほとんどの翻訳が有用であることを発見しました。たぶん、より商業的に敏感であるが、一般的なMTではない、いくつかのドメイン固有のアプリケーション。
オリバーメイソン

@OliverMason:「現代の技術は翻訳されるテキストを理解しようとはしません」-それは伝えられる本質ですか?それは私がMTの結果を理解する方法です?悲しいかな。(AIコミュニティからのいくつかの矛盾は大歓迎です!)
Hans-Peter Stricker

1
@ Hans-PeterStricker:まあ、それはフレッド・イェリネクが言語学者を解雇することで彼の音声認識装置がより正確になったことに気づいたとき、本当にすべてが始まりました。それ以来、さまざまな形の機械学習がルールベースのAIを追い抜いており、現在では、確率レベルを除いて、ほとんどのAIシステムがどのように「実際に機能する」かについてはほとんどわかりません。
ケビン

2
@ Hans-PeterStricker最新のAIシステムを何かを「理解」するものと考えるのは、あまり役に立ちません。入力のセットを受け取り、出力のセットを作成するシステムと考えてください。入力は英語のテキストで、出力はスペイン語のテキストです。システムは、英語のテキストとそれに相当するスペイン語のテキストの束からこれを「学習」しました。それは英語を理解する、またはスペイン語を理解するということですか?それは哲学的な質問です。実際に重要なのは、ある程度の信頼性で英語をスペイン語に変換できることです。
ジョシュエラ

回答では軽く触れましたが、答えはあなたが話している言語ペアに大きく依存していることを指摘する価値があると思います。たとえば、英語<->スペイン語の品質は、英語<->日本語よりもはるかに高いです。
mbrig

回答:


21

機械翻訳は人間の翻訳者と同じくらい優れていると誰が主張しましたか?私にとって、現在35年間翻訳を生業にしているプロの翻訳者として、MTは、翻訳者の質の高い翻訳の日々の制作が、原文の複雑さに応じて3倍から5倍に成長したことを意味します。

MTの質が外国語の入力の長さとともに低下することに同意することはできません。これは、セマンティックおよび文法分析を行う古いシステムに当てはまります。古いシステム(Systranは、Danaerのギフト、XL8、Personal Translator、Translateのように、ある会社から次の会社に販売されたシーメンスのくだらないツールを知っている)を知っているとは思わない28.000 DM(!!!!)を投資しましたが、惨めに失敗しました。

たとえば、次の文:

この暑い夏の日に私は働かなければならず、それはロバの痛みでした。

複数のMTツールを使用してドイツ語に翻訳できます。

個人翻訳者20

ドイツ連邦共和国、ドイツ連邦共和国、ドイツ連邦共和国のシュメルツ・イム・エーゼル。

プロンプト

死体は、シュマーツ・イム・エーゼルの戦争、そして戦争に関するものです。

DeepL

ダイアモンド・ハイマーン・ソマータグ・ミュッシェ・イッヒ・アルベーテン・アンド・エス・ウォー・イン・クアル。

Google:

ドイツのシュマーツ・イム・アルシュの平凡な戦争と戦争の戦争。

今日、Googleは通常、読みやすく、ほぼ正しい翻訳を私に提示し、DeepLはさらに優れています。ちょうど今朝、私は3時間で3500語を翻訳しました。ソーステキストには間違いがたくさんありましたが(中国語で書かれていた)、結果は完璧です。


4
ドイツ語に堪能でない私たちにとって、これらの選択肢のどれが良いか悪いかは明らかではありません。「Esel」は「ass(動物)」を意味し、「Arsch」は「ass(body part)」を意味することを知っています。「Qual」が何を意味するのか、または「ein Schmerz im Arsch」が受け入れられるかどうかはわかりません。
スティグヘマー

3
「Schmerz im Esel」は滑comicです(そして間違っています)。「Arsch」はかなり口語的な言葉で、ドイツ語では使用しません。「Qual」は「痛み」であるため、文は実際の痛みではなく迷惑を表すので、正確ではありませんが、私見の方がより良い選択です。
オリバーメイソン

1
@OliverMason Qualは良い翻訳です:dict.leo.org/englisch-deutsch/qual
yunzen

4
@OliverMason私はドイツ語を母国語としていますが、私はそれを非常によく合っていると思います
yunzen

5
@OliverMason「お尻の痛み」はイディオムです。「Schmerz im Arsch」はそうではありません。誰もそれを言っていません。「Qual」は英語のイディオムを正確に翻訳したもので、あなたが言ったことに反して、実際の肉体的な痛みを示すことはめったにありません。それ以上のコンテキストがなければ、DeepLの翻訳は完璧に見えます。
コンラッドルドルフ

7

Googleの翻訳、特に翻訳が完全ではないことがわかっている場合や、テキストの意味を最初に知りたい場合(Googleの翻訳が誤解を招くまたは間違っている場合があります)に役立ちます。Googleの翻訳(または他の人間以外の翻訳者)が深刻な翻訳を実行することはお勧めしません。一般的な文または単語である場合、非常に長いテキストや非公式言語(またはスラング)を含まない場合、翻訳には英語またはあなたは人間の翻訳者にアクセスできません。

0100100

「AIを再び意味のあるものにする」という論文で、著者は翻訳作業の難しさについても議論しています(これはAI完全な問題であると考えられています)。また、トランスフォーマー(別の最先端の機械翻訳モデル)についても言及していますが、これは非常に悪い結果をもたらします(BLEUメトリックを使用して評価)。

結論として、機械翻訳は難しい問題であり、現在の機械翻訳システムは間違いなくプロの人間の翻訳者として機能しません。


100 BLEUスコアは、人間のゴールドスタンダード翻訳を意味するものではなく、参照翻訳と正確に一致することを意味します。通常、文を翻訳するには複数の方法があるため、人間の翻訳でさえ通常100 BLEUではなく、50-60のようになります。
29

@justhalfもう一度答えを読んでください。
nbro

1
返信いただきありがとうございます。以前のコメントが失礼なようでしたらごめんなさい。私の以前のコメントでの私のポイントは、人間の翻訳が100 BLEUポイントを獲得するという印象を与えることは不正確であるということでした。あなたの現在の答えはそうです。
justhalf

100

5

あなたは非常に多くの質問をしましたが、そのうちのいくつかは明確に答えることができません。の洞察を与えるために機械翻訳品質(およびその歴史)の私はクリストファー・マニングが講義で提示した「一文のベンチマーク」を参照したいと思います。Google Translateの出力と比較される1つの中国語から英語の例を含んでいます。この例の正しい翻訳は次のとおりです。

1519年、600人のスペイン人がメキシコに上陸し、数百万人の人口でアステカ帝国を征服しました。彼らは最初の衝突で兵士の3分の2を失いました。

Google翻訳は次の翻訳を返しました。

2009 1519 600人のスペイン人がメキシコに上陸し、何百万人もの人々がアステカ帝国を征服しました。

2011 1519 600人のスペイン人がメキシコに上陸し、何百万人もの人々がアステカ帝国を征服しました。最初の兵士の損失、3分の2の遭遇です。

2013 1519 600人のスペイン人がメキシコに上陸し、数億人のアステカ帝国を征服し、兵士の3分の2が最初に対立した。

2015 1519 600スペイン人がメキシコに上陸し、何百万人もの人々がアステカ帝国を征服しました。これは、彼らが衝突した兵士の損失の最初の3分の2です。

2017年 1519年、600人のスペイン人がメキシコに上陸し、アステカ帝国の何百万人もの人々を征服しました。彼らは3分の2を殺しました。

Googleかどうか が最良の結果を保持するか「隠す」:疑わしい。自然言語処理(NLP)の分野で働いている多くの優秀な研究者がいます。Googleが翻訳で「最高の成果」を上げた場合、研究者は遅かれ早かれそれを見つけ出すでしょう。(とにかくGoogleが彼らの「最大の成果」を隠すのはなぜですか?彼らはオープンソースの利点を見ているようです。Transformer[1]またはBERT [2]を参照してください)

NB。NLPの最新のアルゴリズムの更新されたリストについては、 SQuAD2.0リーダーボードを

[1] Vaswani、Ashish、et al。「必要なのは注意だけです。」神経情報処理システムの進歩。2017年。

[2] Devlin、Jacob、他 「Bert:言語理解のためのディープ双方向トランスフォーマーの事前トレーニング。」arXivプレプリントarXiv:1810.04805(2018)。


「報酬の高い研究者」へのリンクをありがとう。報酬を念頭に置いておくと、物事をよりよく理解するのに役立ちます(このリンクを設定するときに何を念頭に置いていたかはわかりませんが)。
ハンス-ピーターストリッカー

引数もあまり堅実ではありませんでした。リンクを削除し、引数を改善しようとしました。私は多くのNLP論文を読んでおり、自分の発見にはかなり自信を持っていますが、議論に対する支持を見つけるのは難しいです。
RikH

(気にしないのであれば)調査結果について教えてください。私のメールアドレスは私のプロフィールページで見つけることができます。
ハンス-ピーターストリッカー

1
2019In 1519, 600 Spaniards landed in Mexico to conquer the Aztec empire of millions of people, and they first met two-thirds of their soldiers.
ダンM.

4

それは本当に言語ペアとコンテンツのトピックに依存します。通常、英語から他の言語への翻訳が最適なサポートです。たとえば、英語からルーマニア語への翻訳は、英語からロシア語への翻訳よりも貧弱です。しかし、英語からロシア語またはルーマニア語への翻訳は、ロシア語からルーマニア語への翻訳よりも優れています。そして、ルーマニア語から英語への翻訳は、英語からルーマニア語への翻訳よりも優れています。

しかし、翻訳者との仕事に慣れていて、言語、翻訳の間違い、トピックについて十分な知識がある場合、そこに何があるべきかを理解するのは簡単です。そして、その時点で、母国語に翻訳されたものを読むことは、第二言語で読むよりも簡単にスキャンできる場合があります。

あまり人気のない言語(必ずしも話者数での翻訳ではない)は、知らない2つの言語の辞書を使用して個人的に行うよりも、文字通りの翻訳にはるかに近いだけです。


2

私は間違っているのでしょうか、それにもかかわらず、Googleの翻訳は大多数のユーザーにとって読みやすく、助けになり、役に立つのでしょうか?

はい、それらは多少役立ち、より速く翻訳することができます。

または、Googleに最大の成果を保持する理由があります(そして、ユーザーに見せることができる最高のものを見せない理由)。

たぶん、私は知りません。情報を検索すると、Googleはユーザーがインターネット上で言うことから学習するなど、不適切なデータを信頼できる入力データセットとして取得するなど、本当に恐ろしい愚かなことをたくさん行います。


2

英語で書かないことをおologiesびします。適応された翻訳をここで見つけてください:

興味のある人にMT(DeepL)の品質のアイデアを提供するために、今朝取り組んでいたテキストからこの例を参照してください(6,300ワード、午前9時に始まり、今日は午後1時頃に配信され、まだこの投稿の時間を見つけます)。コメントを投稿したとき、私はこの文(201ワード)に取り組んでいました。

または、このWebサイトにログオンしていないときに実行またはアクティブ化されるプロセス、またはこのWebサイトのインフラストラクチャの適切な動作を妨げるか、不当な負荷をかけるプロセス。または(e)手動または自動のソフトウェア、デバイス、またはその他のプロセスを使用して、このWebサイトのページを「クロール」、「スクレイプ」、または「スパイダー」する。または(f)逆コンパイル、リバースエンジニアリング、またはこのWebサイトのソースコードの取得を試みます。

DeepLはこれを返します。

Sie versichern、garantieren und verpflichten sichgegenüberABC、dass Sie die nicht tun werden:(a)betrügerische、missbräuchlicheorder anderweitig illegaleAktivitätendurchzufüenendidies angens tuesnüderts オーダー(b)オーダーオーダー、オーダーオーダー、オーダーオーダー、パスポート、コンテンオーダープライベートインフォメーションアンデルレンヌッツェンダイザーウェブサイトオーダーエアハルテン、オーダーオーダーオーダーオーダーオーダーオーダーオーダーオーダーオーダー; その他(c)死ぬコンピュータネットワーク、パスワーダーまたは死ぬコードknacken、illegales材料(einschließlich材料、das als bedrohlich oderobszönangesehen werden kann)übertragenoder speiitenen違法行為 ausdrücklichverboten sind; (d)メーリングリスト、Listenserverの自動送信、または自動返信メールのフォーム「スパム」は、ウェブサイトまたはウェブサイトのウェブサイトまたはウェブサイト、ウェブサイト、ウェブサイト、ウェブサイト、ウェブサイト、ウェブサイトのいずれかで使用できます。 Belastung der Infrastruktur dieerウェブサイトの手順; (e)manuelle oder automatisierte Software、Geräteoder andere Prozesse verwenden、um eine Seite dieser Website zu "crawlen"、zu kratzen、zu spinnen oder zu spinnen; 他の(f)のデコンプリリエン、zurückzuentwickelnまたは他のウェブサイト、den Quellcodeダイサーウェブサイトのウェブサイトではありません。死体のウェブサイト、死体のウェブサイト、死体のウェブサイト、または他のウェブサイトの詳細は、他のウェブサイトでご覧ください。(e)manuelle oder automatisierte Software、Geräteoder andere Prozesse verwenden、um eine Seite dieser Website zu "crawlen"、zu kratzen、zu spinnen oder zu spinnen; 他の(f)のデコンプリリエン、zurückzuentwickelnまたは他のウェブサイト、den Quellcodeダイサーウェブサイトのウェブサイトではありません。死体のウェブサイト、死体のウェブサイト、死体のウェブサイト、または他のウェブサイトの詳細は、他のウェブサイトでご覧ください。(e)manuelle oder automatisierte Software、Geräteoder andere Prozesse verwenden、um eine Seite dieser Website zu "crawlen"、zu kratzen、zu spinnen oder zu spinnen; 他の(f)のデコンプリリエン、zurückzuentwickelnまたは他のウェブサイト、den Quellcodeダイサーウェブサイトのウェブサイトではありません。zu kratzen、zu spinnenまたはzu spinnen; その他(f)統合、削除、削除、および削除Quellcode dieser Webサイトの削除 zu kratzen、zu spinnenまたはzu spinnen; その他(f)統合、削除、削除、および削除Quellcode dieser Webサイトの削除

この段落の調整には、約5〜10分かかりました。

翻訳者として、私は機械翻訳に頼ることができないことを知っていますが、時間の経過とともにさまざまなシステムの詳細と機能を学び、何に注意を払うべきかを知っています。

MTは私の仕事に大いに役立ちます。


2
この領域には多言語のテキストが大量にあるため、法的テキストの方が自動翻訳が優れていることに注意してください。
Quora Feans

1

これは論評ほどの答えではありません。

品質は、(上記のアーロンが述べたように)1)言語のペアと2)トピックだけでなく、3)属と4)オリジナルのスタイル、5)使用する平行テキストの量など、いくつかのことによって異なりますMTシステムをトレーニングします。

舞台を設定するために、最近のほぼすべてのMTは平行テキストに基づいています。これは2つの異なる言語のテキストであり、一方はおそらく他方の翻訳(または両方は第三言語の翻訳)です。パラレルテキストに特定の単語が含まれていない場合、バックオフとして辞書を使用する(おそらく形態学的プロセスによって支援される)可能性があります。

さらに、他の人が言ったように、MTシステムは翻訳するテキストを決して理解しません。文字の文字列と、文字で構成された単語のシーケンスのみが表示され、以前に翻訳されたテキスト内の類似の文字列とシーケンスが検索されます。(わかりました、それよりも少し複雑で、計算システムのセマンティクスを取得しようとする試みがありましたが、今のところほとんどが文字列です。)

1)言語は異なります。一部の言語には多くの形態があります。つまり、他の言語が複数の単語で行うのと同じ単語で処理するということです。簡単な例は、スペイン語の「cantaremos」=英語の「we will sing」です。そして、スペイン語の非公式/正式な(tu / usted)区別のように、ある言語は他の言語でも気にかけないことをするかもしれません。または、ある言語は、別の言語が語順で行う形態学で処理する場合があります。または、言語が使用するスクリプトは、単語の境界さえマークしない場合があります(中国語など)。2つの言語が異なるほど、MTシステムがそれらの間で翻訳するのが難しくなります。統計MTの最初の実験はフランス語と英語の間で行われ、

2)トピック:聖書に平行したテキスト(ほぼすべての書かれた言語に当てはまる)があり、MTシステムをそれらからトレーニングする場合、エンジニアリングテキストでうまくいくとは思わないでください。(まあ、とにかく、MTシステムのトレーニングの基準では、聖書は比較的少量のテキストですが、ふりをしてください:-)。構造。(文法は基本的に同じですが、たとえば英語では、科学および工学のテキストでより受動的な声と複合名詞が得られます。)

3)属:パラレルテキストがすべて宣言的である場合(トラクターのマニュアルなど)、ダイアログで結果のMTシステムを使用しようとしても、良い結果は得られません。

4)スタイル:ヒラリー対ドナルドを考える; 博学と人気。一方のトレーニングでは、もう一方のトレーニングでは良い結果が得られません。同様に、成人レベルの小説でMTシステムをトレーニングし、児童書で使用します。

5)言語ペア:英語には多くのテキストがあり、特定の英語テキストと並行する他の言語のテキストを見つける可能性は、たとえばロシア語とイボ語の並行テキストを見つける可能性よりもはるかに高いです。(そうは言っても、インドの言語のような例外があるかもしれません。)総括として、MTシステムを訓練しなければならない平行テキストが多ければ多いほど、より良い結果が得られます。

要するに、言語は複雑です(だからこそ、私はそれを愛しています-私は言語学者です)。したがって、MTシステムが常に適切に機能するとは限りません。

ところで、人間の翻訳者もいつもそううまくいくとは限りません。10、2年前、私は人間の翻訳者からのドキュメントを英語に翻訳し、MTシステムのトレーニング資料として使用していました。翻訳の一部は理解するのが難しく、2人(またはそれ以上)の人間の翻訳者から翻訳を得た場合、翻訳者が同じドキュメントを読んでいたとは信じがたいものでした。

そして最後に、正しい翻訳は1つだけではありません。パッセージの翻訳には複数の方法がありますが、どの機能(文法の正確さ、スタイル、使用の一貫性など)に応じて、多かれ少なかれ良いかもしれません。「精度」の簡単な尺度はありません。


1

驚くべきことに、他のすべての答えは非常に曖昧であり、人間の翻訳者POVからこれにアプローチしようとします。MLエンジニアに切り替えましょう。

翻訳ツールを作成する際に考慮すべき最初の質問の1つは、「ツールが機能することをどのように測定するか」です。

これは基本的にOPが求めているものです。

現在、これは簡単な作業ではありません(他のいくつかの答えが理由を説明しています)。機械翻訳の結果を評価するさまざまな方法に言及するウィキペディアの記事があります-人間のスコアと自動スコアの両方が存在します(BLEUNISTLEPORなど)。

ニューラルネットワーク技術の台頭により、これらのスコアは大幅に向上しました。

翻訳は複雑な問題です。正しい(または間違った)ことができる多くのことがあります。コンピューター翻訳システムは、人間の話者にとって際立っている微妙な点を無視することがよくあります。

私たちが未来について考える場合、私たちが頼ることができるものはほとんどないと思います。

  • 私たちのテクニックはより良く、広く知られ、テストされています。これにより、長期的には精度が向上します。
  • 私たちは、以前は無視されていた変数を考慮するか、より良い仕事をすることができる新しい技術を開発しています。
  • 現在存在する翻訳モデルの多くは、他の言語を翻訳するためにしばしば「再利用」されます(たとえば、Google翻訳を使用してポーランド語から中国語(繁体字)に「JEDEN」を翻訳してみてください-「ONE」 Googleがポーランド語を英語に翻訳し、次に英語を中国語に翻訳するという事実)。これは明らかに良いアプローチではありません-その過程で情報を失うことになるでしょう-しかしそれはまだ機能するものなので、Googleのような企業は十分な労働力やデータがない言語でそれを使用します。時間が経つにつれて、より専門的なモデルが登場し、状況が改善されます。
  • また、前のポイントで述べたように、ますます多くのデータが機械翻訳の改善に役立ちます。

要約すると、この複雑な問題は解決されていませんが、確かに良い方法であり、十分に研究された言語ペアに対していくつかの印象的な結果をもたらします。


「驚くほど他のすべての答え...」、他のすべての答えではありません。「他のいくつかの答え」または「他のほとんどの答え」と言います。
nbro

0

「または、Googleにはその成果を保持する理由があります(そして、ユーザーに見せることのできる最高のものを見せない理由があります)」

もしそうなら、彼らが控えていることは驚くべきことでしょう。Googleは自然言語処理に関する強力な論文を多数公開しています。これには、最先端の結果を得るものや、重要な 概念的な ブレークスルーをもたらすものが含まれます。また、非常に便利なデータセットツールもリリースしました。Googleは、現在の研究の最先端を使用しているだけでなく、文献に積極的に貢献している数少ない企業の1つです。

機械翻訳は難しい問題です。優れた人間の翻訳者は、両方の言語に堪能である必要があります。各言語には独自のイディオムと、非リテラルまたはコンテキスト依存の意味があります。二重言語辞書で作業するだけではひどい結果が得られるため(人間またはコンピューターの場合)、複数の言語に存在する既存のコーパスでモデルをトレーニングして、単語の実際の使用方法を学習する必要があります(手作業でコンパイルされたフレーズ変換テーブルは機能として使用できますが、すべてを網羅することはできません)。一部の言語ペアでは、並列コーパスが豊富です(たとえば、EU言語の場合、欧州議会の完全な議事録があります))。他のペアの場合、トレーニングデータははるかにまばらです。また、トレーニングデータがあったとしても、あまり使用されない単語やフレーズが存在し、学習するほど頻繁に表示されない場合があります。

同義語を説明するのは困難だったため、これは以前はさらに大きな問題でした。トレーニングデータに「犬がボールを捕まえた」という文があり、「子犬がボールを捕まえた」の文がない場合、2番目の文の確率は低くなります。実際、このような多くの場合に確率がゼロになるのを防ぐには、大幅な平滑化が必要です。

過去15年ほどの神経言語モデルの出現は、単語間のつながりを学習する前に単語を実数値の意味空間マッピングできるようにすることで、この問題を大いに助けました。これにより、意味が近い単語が意味空間でも近いモデルを学習できるため、同義語の単語を切り替えても、含まれている文の確率に大きな影響はありません。 word2vecこれは非常によく説明されたモデルです。例えば、「王」の意味ベクトルを取り、「男性」のベクトルを引き、「女性」のベクトルを追加し、結果のベクトルに最も近い単語が「女王」であることがわかります。神経言語モデルの研究が本格的に開始された後、私たちは当惑を即座にかつ大幅に低下させ始めました(すなわち、モデルがどのように自然なテキストによって混乱していたか)そして、対応するBLEUスコア(すなわち、翻訳の品質)が増加していることがわかりました言語モデルは機械翻訳システムに統合されています。

機械翻訳は、品質、人間の翻訳として良いとしてはまだありません、と非常に可能性はありませんよう、我々は完全にサピエントAIをクラックするまでは良いです。しかし、優秀な人間の翻訳者は高価ですが、インターネットにアクセスできる人は誰でも機械翻訳者を利用できます。問題は、人間の翻訳が優れているかどうかではなく、機械がそのレベルの品質にどれだけ近いかということです。そのギャップは縮小しており、縮小し続けています。


私はこのアプローチが好きではありませんが、それは好みと意見の問題です。「人間の翻訳者は費用がかかる」という理由だけで「学習/知識/理解」翻訳なしでやると、悲しくなります。それでは翻訳とは何ですか?
ハンス-ピーターストリッカー

@ Hans-PeterStricker翻訳とは、共通の言語を共有していない人とコミュニケーションを取ることです。現在、機械翻訳はそれを幾分上手にできるほど十分に優れていますが、結果として生じる翻訳はしばしば非文法的であるか、ネイティブではない話者のように聞こえます。(続き...)
レイ

あなたが「学んだ/知識のある/理解している」という意味によっては、すでにそれを行っているかもしれません。それがセマンティックベクトルへのマッピングです。単語は、その基礎となる意味を表すベクトル空間に埋め込まれます。私がリンクしたSutskeverの論文(「概念」として)は、実際に文全体をセマンティックベクトルにマッピングし、そのベクトルをターゲット言語の文に変換することによって翻訳を行います。そのため、ある種の「理解」が確実に起こっています。(続き...)
レイ

基礎となる構文(つまり、文構造)を学習するモデルもあり、それをニューラルモデルに統合する作業がありますが、現時点では、文のどの部分に注意を払うべきかを学習するモデルは、明示的な構文モデルよりも、そのようなことをより効率的に処理するために。(続き...)
レイ

この種の「理解」のどれもが真の理解と見なされない場合、チューリングテストに合格したAI、つまり完全に知性のあるAI以外のものでしょうか?完全に知性のあるAIを作成できないとは決して言わなかったことに注意してください(どれだけ時間がかかるかは言えません。それは私の分野ではありません。しかし、最終的にそこに到達することはほぼ間違いありません)。しかし、ここで説明しているモデルは現在使用しているものであり、人々がコミュニケーションできるようにするのにかなりうまく機能しています。AIの研究は得ることについてすべてである、順次、より良い「十分に良い」のバージョン
レイ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.