回答:
AIのコンテキストでは:
検索はSimon&NewellのGeneral Problem Solverを参照し、多くの(多くの)子孫アルゴリズムです。これらのアルゴリズムは次の形式を取ります。
a。世界の一部の現在の状態をグラフの頂点として表します。
b。エッジによって現在の状態に接続されている、単一のアクションで世界を変更することによって現在の状態から到達できる世界のすべての状態を表し、同じように後続のすべての状態を表します。
c。このグラフ上を歩き回って、現在の状態からさらに望ましい目標状態に至る一連のアクションをアルゴリズムによって見つけます。
検索を使用するアプリケーションの例は、Googleマップです。もう1つはGoogleフライトです。
学習とは、経験や他の人の経験の例に触れることで、世界についての信念を洗練させるアルゴリズムを指します。学習アルゴリズムは、多くの異なるサブフィールドまたは分野で個別に開発されたため、明確な親はありません。合理的な分類法は5部族モデルです。一部の学習アルゴリズムは、実際に検索を使用して、新しい経験に応じて信念を変える方法を見つけ出します。
今日使用されている学習アルゴリズムの例は、Q学習です。これは、強化学習アルゴリズムのより一般的なファミリの一部です。Qラーニングは次のように機能します。
a。学習プログラム(通常はエージェントと呼ばれます)には、世界の現在の状態の表現と、実行することを選択できるアクションのリストが与えられます。
b。エージェントがこの世界の状態を以前に見たことがない場合、各アクションを実行することで得られると予想される報酬に乱数を割り当てます。この番号は、アクションを実行する品質での推測 州内 。
c。エージェントは実行できるアクションごとに。ある程度の確率で最適なアクションを選択します そうでなければランダムに行動します。
d。エージェントの行動により世界が変化し、エージェントが環境から報酬を受け取ることになります。エージェントは、報酬を受け取ったかどうか(および報酬がいくらだったか)と、世界の新しい状態はどのようなものかを書き留めます。次に、以前の状態で実行したアクションの実行の質に関する信念を調整します。その結果、そのアクションの質に関する信念は、獲得した報酬の現実と、それがどこにあるかの質に近くなります。終わった。
e。エージェントは、ステップb〜dを永久に繰り返します。時間が経つにつれて、さまざまな状態/アクションのペアの品質についての信念が収束し、ますます現実と一致します。
学習を使用するアプリケーションの例としては、AI.SEsの推奨事項があります。AI.SEsの推奨事項は、投稿のペアにある単語のさまざまな組み合わせ間の関係と、誰かがクリックする可能性を分析するプログラムによって作成されます。誰かがそれらをクリックするたびに、投稿を関連するものとしてリストすることが良いアイデアであるかどうかについて何かを学びます。Facebookのフィードも日常的な例です。