教師あり学習、教師なし学習、強化学習:ワークフローの基本


30

教師あり学習

  • 1)人間が入力データと出力データに基づいて分類器を構築する
  • 2)その分類器はデータのトレーニングセットでトレーニングされます
  • 3)その分類器はデータのテストセットでテストされます
  • 4)出力が満足できる場合の展開

「このデータを分類する方法を知っているので、ソートするためにあなた(分類器)が必要なだけ」の場合に使用します。

メソッドのポイント:ラベルをクラス分けするか、実数を生成する

教師なし学習

  • 1)人間は入力データに基づいてアルゴリズムを構築します
  • 2)そのアルゴリズムは、データのテストセット(アルゴリズムが分類子を作成する)でテストされます。
  • 3)分類子が満足できる場合の展開

「このデータを分類する方法がわからない場合、アルゴリズムを使用して分類子を作成できますか?」

方法のポイント:ラベルを分類する、または予測する(PDF)

強化学習

  • 1)人間は入力データに基づいてアルゴリズムを構築します
  • 2)そのアルゴリズムは、ユーザーがアルゴリズムが行ったアクションを介してアルゴリズムに報酬を与えるか罰する入力データに依存する状態を提示します。これは時間とともに継続します
  • 3)そのアルゴリズムは報酬/罰から学び、それ自体を更新します、これは続きます
  • 4)常に本番環境にあり、州からのアクションを提示できるように実際のデータを学習する必要があります

「このデータを分類する方法がわかりません。このデータを分類してもらえますか。それが正しい場合は報酬を、そうでない場合は罰します。」

これはこれらのプラクティスの種類の流れですか、彼らが何をするかについて多くを聞きますが、実用的模範的な情報は驚くほど少ないです!


質問の提示方法が本当に気に入りました。私はこの回答が参考になった:stats.stackexchange.com/a/522/92255
Ashesh Kumar Singh

回答:


3

これは基本的なアイデアの非常に良いコンパクトな紹介です!

強化学習

強化学習のユースケースの説明は正確ではないと思います。分類という用語は適切ではありません。より良い説明は次のとおりです。

この環境でどのように行動するかわかりませんが、良い行動を見つけることができますが、その間フィードバックをします

言い換えれば、目標は何かをうまく分類することではなく、何かをうまく制御することです。

入力

  • 環境によって定義されます
    • 可能なすべての状態
    • 州で可能な行動
  • 報酬関数状態および/または行動に依存

アルゴリズム

  • エージェント
    • である状態
    • 別の状態に移行するアクション実行します
    • 州での行動に対して報酬を得る

出力

  • エージェントは、報酬を最大化する最適なポリシーを見つけたい

2

免責事項:私は専門家ではなく、強化学習(まだ)を行ったことがないので、フィードバックは大歓迎です...

リストに小さな数学的なメモを追加し、いつ何を使用するかについてのいくつかの異なる考えを追加する回答があります。列挙が自明であることを願っています:

監督付き

  1. D={(x0,y0),(x1,y1),,(xn,yn)}
  2. gLygバツ0<l
  3. Lln

例を挙げることはできますが、入力から出力に到達するアルゴリズムを与えることはできません

分類と回帰の設定

監督されない

  1. D={バツ0バツ1バツn}
  2. g
  3. 何か有用なことや面白いことをしたかどうかを判断する手段がほとんどない

いくつかのデータはありますが、どこで有用で興味深いものを探し始めるかわかりません

クラスタリング、次元削減、隠れ因子の発見、生成モデルなどの設定

強化

  1. データがありません
  2. gバツRバツ
  3. 学習する時間があると、報酬関数を使用して評価します。

私たちは何かをする方法がわかりませんが、それが正しいか間違っているかを言うことができます

これは、順次決定タスクに特に役立つようです。

参照:
Si、J.、Barto、A.、Powell、W. and Wunsch、D.(2004)Reinforcement Learning and its Relationship to Supervised Learning、in Handbook of Learning and Approximate Dynamic Programming、John Wiley&Sons、Inc.、米国ニュージャージー州ホーボーケン。土井:10.1002 / 9780470544785.ch2

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.