タグ付けされた質問 「online-learning」

1
ウォーレンバフェットの問題
これは、夏に取り組んでいるオンライン学習/盗賊の問題の抽象化です。このような問題は以前に見たことがなく、非常に興味深いようです。関連する作品をご存知の場合は、参考にしてください。 問題 設定は多腕バンディットの設定です。N本の腕があります。各アームiには、それをプレイすることで獲得できる報酬に対する未知の固定確率分布があります。具体的には、各アームiに確率p [i]で報酬$ 10を支払い、確率で$ 0に報酬を支払うと仮定します。1-p [i]。 すべてのラウンドtで、プレイする武器のセットS [t]を選択します。選択した各アームに対して、前払いで1ドルの料金を支払います。選択した各アームについて、そのアームの(未知の)報酬確率分布から引き出される報酬を収集します。すべての報酬は銀行口座に入金され、すべての手数料はその口座から差し引かれます。さらに、各反復の開始時に1ドルのクレジットを取得します。 問題は、各イテレーションでプレイする武器のサブセットを選択して、十分な期間にわたって利益を最大化する(つまり、報酬からプレイ費用を差し引く)ポリシーを作成することです。常時。 腕ごとの報酬分布が以前の分布から選択されるか、敵によって選択されるかを指定しませんでした。どちらの選択も理にかなっています。敵の定式化は私にとってより魅力的ですが、進歩するのはおそらく難しいでしょう。ここで、敵は分布のベクトル(D1、D2、..、DN)を選択します。配分を考えると、最適な予算バランスの方針は、予想される報酬が1ドルを超えるすべての武器をプレイすることです。Pをこの最適な全知ポリシーのステップごとの利益とします。私は、この全知のポリシーについて、後悔(つまり、時間枠Tでの利益の損失)を最小限に抑えるために、オンラインポリシーが必要です。

1
線形プログラムのおおよその解決のための最良の可能な時間/エラーのトレードオフは何ですか?
具体的には、各プレーヤーがアクションを持つ2人のプレーヤーのゼロサムゲームを解決するためのLPを検討してください。ペイオフマトリックスAの各エントリの絶対値が最大1であるとします。簡単にするために、スパース性を仮定しません。nnnAAA このゲームの価値を概算するためにランタイムが利用できるとします。TTT この値を近似するための1つの手法は、乗法的更新法です(このコンテキストでは後悔のない学習として知られています)。これは、エラーの与え、ここで、〜Oの皮は、因子をログ。O~(n/T−−−−√)O~(n/T)\tilde O(\sqrt{n/T})O~O~\tilde O 最もよく知られている内点法のエラーランドスケープがどのようなものか正確にはわかりませんが、エラーはようなものだと推測しています。O (exp(− T/ n3))O(exp⁡(−T/n3))O(\exp(-T/n^3)) 乗法更新法は逆多項式であるエラーを与えます。内点法は、Tで指数関数的に小さいエラーを与えます。したがって、2つの最良のエラーは、内部ポイントが追いつくまでしばらくの間徐々に減少し、その後、エラーは突然崖から落ちます。私の本能は、このように振る舞う可能な限り最良の時間/エラーのトレードオフに反しています。TTTTTT 私の質問: 時間/エラーのトレードオフ曲線の角を滑らかにする近似線形計画法のアルゴリズムはありますか?つまり、利用可能な時間パラメータの任意の値に対して少なくとも2つのうちの最高の機能を実行し、時間とエラーのトレードオフが比較的スムーズなアルゴリズムです。内点法と乗法更新法を組み合わせるよりインテリジェントな方法は、2つのうちのどちらかを採用するよりも、このようなアルゴリズムを取得する方法の1つです。 参考文献: 一般的な乗法的更新: http://www.cs.princeton.edu/~arora/pubs/MWsurvey.pdf ゼロサムゲームの乗法更新: http://dx.doi.org/10.1016/0167-6377(95)00032-0 LPをカバー/パッキングするための乗法的更新: http://arxiv.org/PS_cache/arxiv/pdf/0801/0801.1987v1.pdf オリジナルのインテリアポイントペーパー: http://math.stanford.edu/~lekheng/courses/302/classics/karmarkar.pdf 適用された数学の観点からの内点: Bertsekasの非線形計画法、セクション4.1.1。

2
オンライン凸最適化の内部後悔
Zinkevichの「オンライン凸最適化」(http://www.cs.cmu.edu/~maz/publications/ICML03.pdf)は、線形設定から凸設定までの「後悔最小化」学習アルゴリズムを一般化し、優れた「外部後悔」を提供します。 。内部の後悔についても同様の一般化がありますか?(正確にそれが何を意味するのかさえ完全にはわかりません。)

1
粗い相関平衡と相関平衡の分離
私は、無秩序の価格を無秩序の価格を証明するためのテクニックの例を探しています。これは、無秩序の価格を粗い相関均衡(非外部後悔ダイナミクスの制限セット)から、相関均衡以上の無秩序の価格(制限no-swap-regretダイナミクスのセット)。このタイプの自然な分離は知られていますか? これらの2つのクラスを分離することに対する障害の1つは、無秩序の境界の価格を証明する最も自然な(そして一般的な)方法は、平衡状態にあることだけを観察することであり、OPTで自分のアクションをプレイすることから逸脱するインセンティブがあり、何らかの形でこれを使用することであるということですある構成の社会福祉をOPTの社会福祉に接続する。残念ながら、粗い相関均衡に対する無秩序の価格が小さいという証拠は、各プレーヤーの単一の代替アクション(OPTからのアクションなど)への逸脱のみを考慮するため、相関均衡についても必ず保持されるため、分離を提供できません。これは、粗い相関平衡と相関平衡の唯一の違いは、相関平衡のプレーヤーが同時に考慮する能力であるためです。平衡分布から引き出されたプレープロファイルの彼の信号を条件とする複数の偏差。 そのような分離は知られていますか?

5
オンライン学習を理解する上で良い参考資料は何ですか?
具体的には、動作中にそれぞれの信念ネットワーク(または同等のもの)を更新できる機械学習システムについて学ぶためのリソースを求めています。ブックマークすることはできませんでしたが、いくつかに出くわしたこともあります。 ご想像のとおり、インターネットで検索するのはかなり難しいトピックです。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.