ノベルティ検索はどのように機能しますか？

16

で、この記事では、著者の主張は、（明示的なゴールなし）のみノベルティによって進化を導くことは、より良い明確な目標を使用するよりも問題を解決できること。言い換えると、遺伝的アルゴリズムの適応度関数として目新しさの尺度を使用すると、目標指向の適応度関数よりもうまく機能します。そんなことがあるものか？

genetic-algorithms

— rcpinto
ソース

7

このAI SEの質問に対する回答で説明されているように、GAは「オプティマイザ」ではなく「満足者」であり、検索スペースの「範囲外」の領域を探索する傾向はありません。むしろ、人口は、フィットネス関数に従って「かなり良い」地域に集まる傾向があります。

対照的に、私は、ノベルティは一種のダイナミックなフィットネスを提供し、以前に発見された領域から人口を遠ざける傾向があると考えていると思います。

— NietzscheanAI
ソース

6

新規性検索は、新規性のドメイン依存の定義によって、「新規性のある振る舞い」を選択します。たとえば、迷路解決ドメインの目新しさは、「探索されたルートの違い」かもしれません。最終的に、迷路を通るすべての可能なルートを通るネットワークが見つかり、最速を選択できます。これは、目標までの距離のような単純な「目的」よりもはるかにうまく機能し、迷路を解決することのない局所的な最適値を簡単にもたらす可能性があります。

目的の放棄から：目新しさだけを求めて進化する（私の強調）：

ノベルティ検索では、従来の目的関数で全体的な進行状況を測定する代わりに、進化はノベルティメトリックと呼ばれる行動の新規性の尺度を使用します。実際には、このようなメトリックによって導かれる検索は、自然進化が受動的に行うことを明示的に実行します。つまり、複雑さのはしごを登る新しい形を徐々に蓄積します。
たとえば、Bipedの移動ドメインでは、最初の試行が単純に失敗する場合があります。目新しさの測定基準は、客観的な行動に近いかどうかに関係なく、単に別の方法で落下することで報酬を得るでしょう。対照的に、目的関数は、最も遠くに落下することを明示的に報いる可能性があります。これは、ウォーキングの最終的な目的につながらない可能性が高いため、不正な局所最適を例示します。対照的に、目新しさの検索では、最も新しい発見を表す一連のインスタンスが維持されます。さらに検索すると、これらの代表的な行動からジャンプします。落下するいくつかの方法が発見された後、報酬を受ける唯一の方法は、すぐに落下しない行動を見つけることです。このように、行動の複雑さはボトムアップで上昇します。最終的に、何か新しいことをするために、目的ではなくても、Bipedはある程度の距離を正常に歩く必要があります。

— 擬態する
ソース