具体的には、各プレーヤーがアクションを持つ2人のプレーヤーのゼロサムゲームを解決するためのLPを検討してください。ペイオフマトリックスAの各エントリの絶対値が最大1であるとします。簡単にするために、スパース性を仮定しません。
このゲームの価値を概算するためにランタイムが利用できるとします。
この値を近似するための1つの手法は、乗法的更新法です(このコンテキストでは後悔のない学習として知られています)。これは、エラーの与え、ここで、〜Oの皮は、因子をログ。
最もよく知られている内点法のエラーランドスケープがどのようなものか正確にはわかりませんが、エラーはようなものだと推測しています。
乗法更新法は逆多項式であるエラーを与えます。内点法は、Tで指数関数的に小さいエラーを与えます。したがって、2つの最良のエラーは、内部ポイントが追いつくまでしばらくの間徐々に減少し、その後、エラーは突然崖から落ちます。私の本能は、このように振る舞う可能な限り最良の時間/エラーのトレードオフに反しています。
私の質問:
時間/エラーのトレードオフ曲線の角を滑らかにする近似線形計画法のアルゴリズムはありますか?つまり、利用可能な時間パラメータの任意の値に対して少なくとも2つのうちの最高の機能を実行し、時間とエラーのトレードオフが比較的スムーズなアルゴリズムです。内点法と乗法更新法を組み合わせるよりインテリジェントな方法は、2つのうちのどちらかを採用するよりも、このようなアルゴリズムを取得する方法の1つです。
参考文献:
一般的な乗法的更新:
http://www.cs.princeton.edu/~arora/pubs/MWsurvey.pdf
ゼロサムゲームの乗法更新:
http://dx.doi.org/10.1016/0167-6377(95)00032-0
LPをカバー/パッキングするための乗法的更新:
http://arxiv.org/PS_cache/arxiv/pdf/0801/0801.1987v1.pdf
オリジナルのインテリアポイントペーパー:
http://math.stanford.edu/~lekheng/courses/302/classics/karmarkar.pdf
適用された数学の観点からの内点:
Bertsekasの非線形計画法、セクション4.1.1。