目的は、Tensorforceのようなフレームワークを使用して、状態駆動型ルールに依存するアクションスペースに特定の制約を持つ近位ポリシー最適化コンポーネントを設計することです。
質問にリストされている設計オプション
これらのオプションは、以下の初期分析を読む際のクイックリファレンスとしてここにリストされています。
- internal_stateに応じて、各ステップでアクションスペースを変更します。これはナンセンスだと思います。
- 何もしない:使用できないアクションを選択しても影響がないことをモデルに理解させます。
- ほとんど何もしない:モデルが利用できないアクションを選択したときに、報酬にわずかにマイナスの影響を与えます。
- モデルを支援する:モデルにinternal_state値+箇条書き2または3を通知する整数を状態/監視スペースに組み込む
初期分析
移動ごとにアクションスペースを変更することは確かに賢明です。つまり、実際には、前述の問題の適切な表現と、人間がゲームをプレイする通常の方法と、チェスと囲碁でコンピュータが人間を倒す方法です。
この考えの明らかな無意味さは、Tensorforceプロジェクトのロードマップに沿った進展と強化理論に沿った進展の単なる産物であり、どちらも全体像は若いです。TensorforceのドキュメントとFAQを読むと、フレームワークがルールエンジンをプラグインしてアクションスペースを決定するように設計されているようには見えません。これはオープンソースの欠点ではありません。ルール条件付きマルコフ連鎖決定の理論や提案アルゴリズムを提供する論文はないようです。
何もしないオプションは、文献に示されている現在利用可能な戦略に適合するオプションです。何もしないことがおそらく、より信頼性が高く、おそらくより即時に望ましい動作を生成するアプローチです。
モデルを支援するという概念の問題は、モデルを拡張することほど強力なアイデアではないということです。オープンソースでは、これはモデルを表すクラスを拡張することで行われます。
a. Represent rule-conditioned learning in nomenclature
b. Represent convergence mathematically using the new nomenclature
c. Determining a method of convergence
d. Proving convergence
e. Rechecking
f. Defining a smooth and efficient algorithm
g. Providing PAC learning information for planning
f. Peer review
g. Extending the classes of the library
h. Proof of concept with the current problem above
i. Additional cases and metrics comparing the approach with the others
j. Extending the library flexibility to support more such dev
ルールに制約のあるケースをカバーするように学習システムを拡張することは、博士論文の優れたアイデアであり、多くの可能なアプリケーションを備えたプロジェクト提案として研究所に飛ぶかもしれません。すべてのステップで研究者を思いとどまらせないでください。これらは基本的に、博士論文または資金提供を受けたAI研究プロジェクトのステップのリストです。
短期的な解決策として、モデルを支援することは機能するかもしれませんが、強化学習パスに沿ってAIのアイデアを促進するための適切な戦略ではありません。特定の問題に対する短期的な解決策として、問題なく機能する場合があります。ほとんど何もしないという考えは、Tensorforceが使用している可能性が高い特定の実装につながった収束の証明に収まるため、より健全な場合があります。
ほとんど何もしない状態からコンバージェンスを支援するように名前を変更すると、試してみる前に正しい見方を身に付けることができます。学習率と同様に、オーバーシュートを回避するために収束に近づくと、アシストを減衰させる必要がある場合があります。