チューリングテストまたはその変形は、人工知能の信頼できるテストですか？

35

チューリングテストは、人工知能の最初のテストだったと今少し時代遅れです。総チューリングテストははるかに洗練されたシステムを必要とし、より現代的なテストであることを目指しています。人工知能（弱いAI）と人工一般知能（強いAI）を識別するためにどのようなテクニックを使用できますか？

— ロブ・マレー
ソース

6

多くの参加者による統計的アプローチが絶対に必要です。チューリングテストに合格しなかった人間に会いました。

— SF。

1

それはあなたが知性を定義するものに依存します。

— バランスキスタッド

16

チューリングテストの修辞的なポイントは、内部コンポーネントではなく、観察可能な結果に「人間性」の「テスト」を配置することです。AIとのやり取りで人と同じように振る舞う場合、それらの違いをどのように知ることができますか？

しかし、インテリジェンスにはさまざまなコンポーネントがあり、さまざまな種類の知的タスクがあるため、それが信頼できるというわけではありません。チューリングテストは、いくつかの点で、行動に対する人々の反応に関するものであり、信頼性はまったくありません。非常に単純なチャットボットであるELIZAが優れたリスナーであり、非常に感情的に深く関与していると多くの人々が思い出したことを思い出してください。イケアのコマーシャルは、ランプを捨てることについて心に訴えます。感情的な愛着は、ランプからではなく、人間の視聴者（および音楽）からのものです。

特定の経済活動のチューリングテストは、実際には非常に興味深いものです。たとえば、Uberドライバーに代わるAIを作成できる場合、誰かが会話型チャットボットを作成できる場合よりも、それが意味することははるかに明確です。

— マシュー・グレイブス
ソース

10

チューリングテストの問題は、人間に似た機械の能力をテストすることです。必ずしもすべてのAIが人間に似ている必要はありません。これにより、チューリングテストの信頼性が低下します。ただし、実際のテストであるため、依然として有用です。また、チューリングテストに合格するか、最も近く合格するための賞、ローブナー賞があることも注目に値します。

インテリジェントのインテリジェントエージェント定義では、エージェントが過去の経験と知識に基づいてパフォーマンス測定値の期待値を最大化するように行動する場合、エージェントはインテリジェントであると述べています。（ウィキペディアからの言い換え）。この定義はより頻繁に使用され、人間に似ている能力に依存しません。ただし、これをテストすることは困難です。

— ウィタゴラス
ソース

7

従来のチューリングテストには確かに制限があります。まだここで言及されていないので、チューリングテストが真の「意識」を確認するのに実際に不十分である最も一般的に引用される理由の1つであるThe Chinese Roomについて読むことをお勧めします。ただし、チューリングテストを提案した元の論文では、チューリング自身も自身が、テストが意識を検出するためのテストではないことを明確に認めていることに。

「機械は考えることができるか？」という質問を検討することを提案します。これは、「機械」および「考える」という用語の意味の定義から始める必要があります。定義は可能な限り言葉の通常の使用を反映するように枠組されているかもしれませんが、この態度は危険です。「機械」や「考える」という言葉の意味が一般的にどのように使用されるかを調べることによって見つけられる場合「機械は考えることができるか？」という質問に対する意味と答えという結論から逃れることは困難です。ギャラップ調査などの統計調査で求められます。しかし、これはばかげています。そのような定義を試みる代わりに、私は質問を別の質問に置き換えます。質問はそれと密接に関連しており、比較的明確な言葉で表されます。

問題の新しい形式は、「模倣ゲーム」と呼ばれるゲームの観点から説明できます。

この模造ゲームは、今日私たちが知っているテストです（また、ベネディクトカンバーバッチとキーラナイトレイ主演の最近の長編映画の名前のインスピレーション）。

— eric.mitchell
ソース

1

素晴らしい答え。また、「模倣ゲーム」から「チューリングテスト」への移行が、分岐についてのいくつかの深い誤解につながったという意見も共有します。（ポルノボットはチューリングテストに常に合格しています。）

— デューク

5

人工知能には多くの定義があります。これらの定義はすべて、1つ（または複数）の領域の一部です。4つの主要なドメインがあり、以下の図はこの点を明らかにするものです。

チューリングテストは、カーディナリティの左側を中心に展開します。これは、主に人間の考え方や行動に関するものです。しかし、これがすべてではないことを知っています。チューリングテストは、AIが一般的な意味で何であるかに関して、提供するものがあまりありません。
ウィキペディアが述べているように、チューリングテストは、人間の動作と同等または区別できない動作を示すマシンをテストするために作成されました。人工知能は、人間ができることや行動する以上のものです。知的ではなく、時には非人間的と見なされる人間の行為も数多くあります。
中国語の部屋の議論は、非常に重要なことに焦点を当てています「意識vs意識のシミュレーション」。ジョンサールは、機械（または人間）が思考や心を持たずにタスクを完了するために、事前定義された膨大な数のルール（アルゴリズム）に従うことが可能であると主張しました。弱いAIは理解する能力をシミュレートするのが得意ですが、彼らが何をしているかを本当に理解してはいけません。彼らは「自己認識」を示さず、自分自身についての表現を形成しません。「私はそれが欲しいことを知っているv / sが欲しい」は2つの異なるものです。自己認識と心の理論の、弱いAIと強いAIの間の細い線を引きます。

心の理論が述べているように、優れたAIは、それが取り組んでいる世界についての表現を形成するだけでなく、世界の他のエージェントやエンティティについても表現すべきです。この2つの概念は

チューリングテストになると、多くの理由で失敗し、テストに別のレイヤーを追加するトータルチューリングテストも失敗します。ほとんどの研究者は、チューリングテストは主な目標から気をそらすものであり、実りある仕事を妨げるものであると考えています。これを考慮して、人間と機械を区別するために難しい算術問題を尋ねるとします。マシンが人間のふりをしたい場合は、嘘をつきます。これは私たちが望むものではありません。チューリングテストに進むと、作成可能なAIの上限が設定されます。また、AIを人間のように振る舞わせ、振る舞わせることはあまり良い考えではありません。人間は常に正しい決断を下すことはあまり得意ではありません。これが私たちが歴史の本で戦争について読んだ理由です。私たちが下す決定は、しばしば偏っていたり、利己的な起源などを持っています。

AIをテストするテストが1つあるとは思わない。これは、AIには多くの定義、多くの種類があるためです。AIが弱いか強いかは、「私はそれが欲しいと思うv / sが欲しい」、「私は誰で、何をしているのか（マシンの観点から）」などの質問への回答を探しながらタグ付けできます。上で述べた他のいくつかの質問。

— ウグネス
ソース

3

テストの実施方法によって異なります。たとえば、数年前にマシンがチューリングテストに合格したと人々が主張したとき、基準はかなり弱かった。5分間、30％の人をだますだけで済みました。これはテストではありません。これを視野に入れると、おそらくこの基準では統合失調症、自閉症、学習障害、または認知症は検出されないでしょう。

誇大宣伝にもかかわらず、かなり単純な質問を使用して、現在のAIを100％検出できます。