Eloレーティングシステムは、ペアの比較での結果の予想される確率と観測される確率の間のクロスエントロピー損失関数の勾配降下最小化アルゴリズムを使用します。一般的な損失関数は次のように書くことができます
E= − ∑n 、ip私L O G(q私)
ここで、合計はすべての結果およびすべての対戦相手nに対して実行されます。
p iはイベントiの観測された頻度であり、q iは予想される頻度です。私んp私私q私
可能性のある結果が2つ(勝ちまたは負け)で、対戦相手が1人の場合
E= − p L o g(q)− (1 − p )L o g(1 − q)
場合はプレイヤーのランキングされたIおよびπ jはプレイヤーのランキングであるJ我々として期待確率に構築することができ
、Q I = E π 私をπ私私πjjのq、J=E π J
qi=eπieπi+eπj
後、勾配降下更新ルールのtell使用
qj=eπjeπi+eπj
π′i=πi−η(qi−pi)
π′j=πj−η(qj−pj)
qipiijtwo outcomes
抽選が存在する場合、上記のモデルを含め、確率で3番目の結果を一般化できます。
q(d)=νeπi+πj2eπi+eπj+νeπi+πj2
qi(w)=eπieπi+eπj+νeπi+πj2
qj(w)=eπjeπi+eπj+νeπi+πj2
そして、損失関数を次のように構築できます。
E=−p(w)Log(q(w))−(1−p(w)−p(d))Log(q(l))−p(d)Log(q(d))
p(w),p(l),p(d)win
loose
draw
q(w),q(l),q(d)win
loose
draw
π′i=πi−η(qi(w)+qi(d)2−pi(w)−pi(d)2)
π′j=πj−η(qj(w)+qj(d)2−pj(w)−pj(d)2)
qj(w)qj(d)ijpi(w)pi(d)ijthree outcome
問題は、two outcomes
ドローが存在する場合でもEloレーティングシステムが更新ルールを使用するのはなぜですか?