人工知能 proofs

2

表形式のQ学習アルゴリズムは、学習率に関する以下の条件（Robbins-Monro条件）が満たされていれば、最適な関数を見つけることが保証されていますQQQQ∗Q∗Q^* ∑tαt(s,a)=∞Σtαt（s、a）=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞Σtαt2（s、a）<∞\sum_{t} \alpha_t^2(s, a) < \infty ここで、は、タイムステップで状態およびアクション関連付けられた値を更新するときに使用される学習率を意味します。ここで、はtrueであると想定されます。すべての状態のとアクション。αt(s,a)αt（s、a）\alpha_t(s, a)QQQsssaaattt0≤αt(s,a)<10≤αt（s、a）<10 \leq \alpha_t(s, a) < 1sssaaa 明らかに、場合、2つの条件がtrueになるためには、すべての状態とアクションのペアに無限にアクセスする必要があります。これは、本の強化学習：はじめににも記載されています、これは広く知られている必要があるという事実とは別に、トレーニング中に -greedyポリシー（または同様のポリシー）を使用する根拠となっています。0≤αt(s,a)<10≤αt（s、a）<10 \leq \alpha_t(s, a) < 1ϵε\epsilon Qラーニングが最適な関数を見つけることを示す完全な証明は、ラーニングの収束：単純な証明（Francisco S. Melo）の論文にあります。彼は、収縮マッピングのような概念を使用して、この収縮演算子の固定小数点である最適な関数（強化学習におけるベルマン演算子とは？も参照）を定義します。彼はまた、いくつかの仮定を前提として、に収束するランダムプロセスに関する定理（n。2）を使用しています。（あなたが数学の人でないなら、証明は従うのが簡単ではないかもしれません。）QQQQQQQQQ000 関数を表すためにニューラルネットワークが使用されている場合、Q学習の収束保証は引き続き有効ですか？関数近似を使用するとQ学習が収束する（または収束しない）のはなぜですか？関数近似を使用したQ学習のそのような非収束の正式な証明はありますか？QQQQQQQQQ 私は、関数近似を使用するときにQQQラーニングの非収束の背後にある直感を与えるものから、形式的な証明（または形式的な証明のある論文へのリンク）を提供するものへのさまざまなタイプの回答を探しています。

12 reinforcement-learning q-learning deep-rl proofs function-approximation

8

人工一般知能が可能であることの証明

コンピュータサイエンスでは、人間の心はチューリングマシンで再現できると想定されているため、人工一般知能（AGI）が可能です。そうでなければ、神秘的な何かを信じることであり、神秘的な信念は誤りです。 AGIが可能であるという他の議論は知りませんが、前述の議論は非常に弱いものです。少なくとも理論的には、AGIが可能であるという厳密な証拠はありますか？人間の心でできるすべてのことをプログラムとしてエンコードできることをどうやって知るのでしょうか。

11 philosophy agi proofs

1

機械学習に対する「No Free Lunch」の定理の意味は何ですか？

No Free Lunch（NFL）の定理は述べています（David H. WolpertとWilliam G. Macreadyによる論文Coevolutionary Free Lunchesを参照）考えられるすべての問題でパフォーマンスが平均化されている場合、任意の2つのアルゴリズムは同等です。「無料ランチなし」の定理は本当に本当ですか？実際にはどういう意味ですか？このアサーションを示す（MLコンテキストでの）良い例がいいでしょう。動作が非常に悪いアルゴリズムをいくつか見たことがありますが、実際には上記の定理に従っているとは信じにくいため、この定理の私の解釈が正しいかどうかを理解しようとしています。それとも、Cybenkoの万能近似定理のような別の装飾定理ですか？

10 machine-learning optimization proofs no-free-lunch

タグ付けされた質問 「proofs」

タグ付けされた質問「proofs」