Q学習でQという文字が選ばれたのはなぜですか?


17

Qラーニングの名のもとにQという文字が選ばれたのはなぜですか?

ポリシーを表すや値を表すなど、ほとんどの文字は省略形として選択されます。しかし、Qは単語の略語だとは思いません。πv


1
私の比phor的な理解では、Qは、特定の状態のアクションの量(報酬、コスト、その他最適化されているものと呼びます)を関連付ける関数です。
knk

1
組み立てられた元の質問である@sycoraxは、Qラーニングの理解を暗示し、説明を提供するために、コンテキストを追加するのに役立ちます。根拠を確立せずに説明をするとOPは失われます。
knk

比phor的なQ =数量は役立ちますか?私はそれが状態を与えられた行動の定量化であると考えています
18年

回答:


35

皆を失望させてすみませんが、Qは何も意味しません:)

Qラーニングは、1989年に博士論文でWatkinsによって提案されました。p.96を参照してください。そのページの方程式のQは、各ステップで特定の方法で更新されます。Qは、特定の状態でのアクションからの期待リターンです。46ページのQの定義を参照してください。リターンは、経済的またはゲーム理論的な意味、つまり割引された確率加重報酬であり、関数からのリターンのようなコンピューターサイエンス用語ではありません。

すでにPを確率に、Rを報酬にどのように使用していたのかに注意してください。それでおしまい。文字Qを選択しても、それ以上の意味はありません。


3
より深い意味はありませんが、それ意味であり(QはアルファベットのPおよびRに適合します)、何かを表します
セクストスエンピリカス

2
@MartijnWeteringsこれはまったく意味がありません。これは文字の純粋に構文上の選択であり、セマンティックな考慮事項は一切ありません。
デビッドリチャービー

確かに、セマンティックの考慮事項はほとんどありません(ラテン文字またはギリシャ文字、アルファベットの異なる位置の文字、または大文字と小文字の違いが構文とセマンティクスの間に灰色の領域を形成する可能性があるため、これは議論されるかもしれません)。Qの選択は「意味のある」ものと見なします。文字の形式(これはいくぶんarbitrary意的です)が、変数/パラメーターの意味をある程度表現しているからです。意味は文字の選択に関連しています。uまたはvが選択された場合、またはi、j、kまたはx、y、zまたは場合、適切な選択はありませんでした。α,β,γ
セクストスエンピリカス

@ MartijnWeterings、Qもキューのように聞こえますが、これはやや関連性のある意味合いをもたらします
-Aksakal

@Aksakal、それはQの使用を強化していたかもしれない。しかし、私はそれが強いとは思わない。私はこのトピックについてあまり知りませんが、その論文の簡単な概要では、文字がやような量に使用されていることは非常にもっともらしいよう です。最終的に「アクション値」のような「名前」が与えられましたが、その論文で使用されている文字はアルファベットにずっと固執しているようです。例えば、の機能のためには、変数の値関数のため、それは近似です。などi R i P i i V i P i f g h x y V UQiRiPiiViPif g hx yV U
Sextus Empiricus

0

Q-Learningがそう呼ばれる理由は、Q値を使用して推定値を形成するためです。通常の学習ルールは、そして、なぜそれがQ-Learningと呼ばれるのかが明確になるはずです。Q(st,at)Q(st,at)+α(rt+γ×maxaQ(st+1,a)Q(st,at))

しかし、私の見解での実際の質問は、Qラーニングがそう呼ばれている理由です。満足のいく答えはないようですが、このリンクは、Modern Reinforcement Learningの創設者の1人であるAndrew Bartoが、はQualityの略であると考えていると述べています。である。Q


2
その論文を読み、「品質」は期待収益のコンテキストで理にかなっているかを教えて
Aksakal

私はあなたに同意しますが、論文は、ワトキンスが多くのことについてアンディに相談した後に書かれました。アンディは、あなたが彼が考えるよりも良いアイデアを持っていたかもしれません。
アミートデシュパンデ

品質は、学習における明確な概念としても存在しません。もちろん、英語の通常の意味でこの単語を使用できます。一方、期待収益率はゲーム理論で非常に明確に定義されており、品質などの曖昧な概念を付加することでそれを希釈する必要はありません。品質を最大化するのではなく、適切な確率尺度の下で割引された報酬を最大化しています。少し広くしたい場合は、ユーティリティを最大化できます。
アクサカル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.