数学では、演算子という単語は、いくつかの異なるが関連する概念を参照できます。演算子は、2つのベクトル空間の間の関数として定義でき、ドメインとコドメインが同じである関数として定義できます。または、関数(ベクトル)から他の関数(の場合)への関数として定義できます。たとえば、微分演算子)、つまり高次関数(関数プログラミングに精通している場合)。
強化学習(RL)におけるベルマン演算子とは何ですか?なぜそれが必要なのですか?ベルマン演算子は、RLのベルマン方程式とどのように関連していますか?
数学では、演算子という単語は、いくつかの異なるが関連する概念を参照できます。演算子は、2つのベクトル空間の間の関数として定義でき、ドメインとコドメインが同じである関数として定義できます。または、関数(ベクトル)から他の関数(の場合)への関数として定義できます。たとえば、微分演算子)、つまり高次関数(関数プログラミングに精通している場合)。
強化学習(RL)におけるベルマン演算子とは何ですか?なぜそれが必要なのですか?ベルマン演算子は、RLのベルマン方程式とどのように関連していますか?
回答:
私が使用する表記は、David Silverによる2つの 異なる講義からのものであり、これらのスライドによっても説明されています。
予想されるベルマン方程式は
させたら
これは行列形式で書くことができます
Or, more compactly,
Notice that both sides of are -dimensional vectors. Here is the size of the state space. We can then define an operator as
for any . This is the expected Bellman operator.
Similarly, you can rewrite the Bellman optimality equation
as the Bellman optimality operator
The Bellman operators are "operators" in that they are mappings from one point to another within the vector space of state values, .
Rewriting the Bellman equations as operators is useful for proving that certain dynamic programming algorithms (e.g. policy iteration, value iteration) converge to a unique fixed point. This usefulness comes in the form of a body of existing work in operator theory, which allows us to make use of special properties of the Bellman operators.
Specifically, the fact that the Bellman operators are contractions gives the useful results that, for any policy and any initial vector ,
where is the value of policy and is the value of an optimal policy . The proof is due to the contraction mapping theorem.