Lovelace Test 2.0はアカデミックな環境でうまく使用されていますか?


18

2014年10月、Mark Riedl博士は、オリジナルのLovelace Test(2001年に公開)に触発された後、「Lovelace Test 2.0」と呼ばれるAIインテリジェンスのテスト方法を公開しました。マークは、オリジナルのラブレーステストに合格することは不可能であると考えていたため、より弱く、より実用的なバージョンを提案しました。

Lovelace Test 2.0は、AIがインテリジェントであるためには創造性を示さなければならないという仮定を立てています。論文自体から:

Lovelace 2.0テストは次のとおりです。人工エージェントaは次のようにチャレンジされます。

  • タイプtの成果物oを作成する必要があります。

  • o制約Cのセットに準拠する必要があります。ci∈Cは自然言語で表現可能な基準です。

  • tとCを選択した人間の評価者hは、oがtの有効なインスタンスであり、Cを満たすことを満足します。そして

  • 人間の審判員rは、tとCの組み合わせが平均的な人間にとって非現実的ではないと判断します。

人間の評価者は、AIが勝つための非常に簡単な制約を考え出す可能性があるため、人間の評価者は、AIが失敗するまで、AIに対してますます複雑な制約を考え続けることが期待されます。Lovelace Test 2.0のポイントは、さまざまなAIの創造性を比較することであり、チューリングテストのように「インテリジェンス」と「非インテリジェンス」の明確な境界線を提供することではありません。

ただし、このテストが実際にアカデミックな環境で使用されているのか、それとも現時点で思考実験としてのみ使用されているのかについて興味があります。Lovelaceテストは、アカデミックな環境では簡単に適用できるように見えますが(人工エージェントをテストするために使用できる測定可能な制約を開発する必要があるだけです)、主観的すぎる場合もあります(人間は特定の制約のメリットに同意できない場合があり、 AIによって作成された創造的なアーティファクトが実際に最終結果を満たします)。

回答:


5

番号。

TL; DR:Lovelace Test 2.0は非常に曖昧であり、知性の評価には不向きです。また、創造性を評価するための独自のテストをすでに持っている計算創造性の研究者によっても無視されます。

詳細な回答:Google Scholarによると、「Lovelace Test 2.0」ペーパーには10件の参照があります。これらの参照はすべて、ラブレーステスト2.0が存在することを示すためにのみ存在します。実際、私が相談した記事の少なくとも2つ(人間に似た自己意識行動FraMoTEC を識別するための新しいアプローチ:適応制御システムを評価するためのモジュラータスク環境構築のフレームワーク)は、代わりに独自のテストを提案しました。

FraMoTEC論文を執筆した著者の1人は、FraMoTECに関する論文も執筆、Lovelace Test 2.0およびその他の同様のテストを間接的に批判しました。

Piaget-MacGyver Roomの問題[Bringsjord and Licato、2012]、Lovelace Test 2.0 [Riedl、2014]、Toy Boxの問題[Johnston、2010]にはすべて、非常に曖昧に定義されているという警告があります。インテリジェンスの合理的な評価を行いますが、独自のドメイン固有の評価に参加する2つの異なるエージェント(またはコントローラー)を比較することは非常に困難です。これは、エージェントが特定の評価に合格するように調整された場合によく起こります。

Lovelace Test 2.0のもう1つの大きな問題は、AIの創造性を「測定」する他のテストが急増していることです。評価の評価: 2011年にアンナジョーダンが発行した計算創造性研究の進歩の評価(ラブレーステスト2.0の発明の3年前)は、AIの創造性に関する研究論文を分析し、

システムの創造性を評価するために創造性評価方法論を適用した18の論文のうち、コミュニティ全体で標準として登場した方法論は1つもありませんでした。コルトンの創造的な三脚フレームワーク(Colton 2008)が最も頻繁に使用され(6回使用)、リッチーの経験的基準を使用した4つの論文(Ritchie 2007)でした。

これにより、10の論文にさまざまな創造性の評価方法が残ります。

「評価の評価」の目標は、創造性を評価するプロセスを標準化することであり、非常に多くの創造性テストの拡散によりフィールドが停滞する可能性を回避することでした。アンナ・ジョーダンは引き続き創造性テストの評価に興味を持ち、「進歩に戻る:計算創造性のメタ評価の基準を設定する」計算創造性に関する4つのPPP展望などの記事を公開しました

「評価の評価」は、創造性を評価するシステムの急増を説明するいくつかの解説を提供します。

評価基準の定義は簡単ではありません。創造性を評価することは困難であり、人間の創造性と計算の創造性において、創造性を評価する方法を記述することはさらに困難です。実際、創造性の定義そのものにも問題があります(Plucker、Beghetto、およびDow 2004)。「創造的」であることの意味を特定するのは難しいので、測定すべきベンチマークや根拠はありません。

創造性の非常に多くのテストがすでに存在するという事実(ヨルダンがそれらを研究することで学術的なキャリアを作ることができる程度)は、新しいテスト(ラブレーステスト2.0など)に気づくことさえ非常に難しいことを意味します)。代わりに使用できるテストが他にもたくさんあるのに、なぜLovelace Test 2.0のようなものを使用したいのでしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.