5
強化学習でのQ関数とV関数とは何ですか?
ように私には思えるVVV機能を簡単に表すことができるQQQ機能ひいてはVVV機能は、私には余分のようです。しかし、強化学習は初めてなので、何か間違ったことがあると思います。 定義 Q学習とV学習は、マルコフ決定プロセスのコンテキストにあります。A MDPは 5タプルである(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, \gamma)と SSSは状態のセットです(通常は有限) AAAはアクションのセットです(通常は有限) P(s,s′,a)=P(st+1=s′|st=s,at=a)P(s,s′,a)=P(st+1=s′|st=s,at=a)P(s, s', a) = P(s_{t+1} = s' | s_t = s, a_t = a)は、アクション aで状態sssから状態に到達する確率です。s′s′s'aaa R(s,s′,a)∈RR(s,s′,a)∈RR(s, s', a) \in \mathbb{R}状態から行く直後の報酬であるsss状態にs′s′s'アクションとaaa。(通常はのみがs′s′s'重要であるように思えます) γ∈[0,1]γ∈[0,1]\gamma \in [0, 1]割引率と呼ばれ、決定された場合は、1つの即時報酬に焦点を当てて(γ=0γ=0\gamma = 0)、総報酬(γ=1γ=1\gamma = 1)またはいくつかのトレードオフ。 政策ππ\piによると、強化学習:入門サットンによるとバート氏は、関数であるπ:S→Aπ:S→A\pi: S \rightarrow A(これは確率論することができます)。 よるマリオマルティンススライド、VVV関数である Vπ(s)=Eπ{Rt|st=s}=Eπ{∑k=0∞γkrt+k+1|st=s}Vπ(s)=Eπ{Rt|st=s}=Eπ{∑k=0∞γkrt+k+1|st=s}V^\pi(s) = E_\pi \{R_t | s_t …