Eloレーティングまたはページランキングが私のセットにとって意味があることを証明するにはどうすればよいですか？

13

プレーヤーのセットがあります。彼らはお互いに対戦します（ペアワイズ）。プレイヤーのペアはランダムに選択されます。どのゲームでも、あるプレイヤーが勝ち、別のプレイヤーが負けます。プレイヤーは互いに限られた数のゲームをプレイします（一部のプレイヤーはより多くのゲームをプレイし、一部はより少ないゲームをプレイします）。そのため、データがあります（誰が誰に対して何回勝ちますか）。今、私はすべてのプレイヤーが勝利の確率を決定するランキングを持っていると仮定します。

この仮定が実際に真実かどうかを確認したい。もちろん、EloレーティングシステムまたはPageRankアルゴリズムを使用して、すべてのプレーヤーのレーティングを計算できます。しかし、評価を計算することによって、それら（評価）が実際に存在すること、またはそれらが何を意味するかを証明しません。

言い換えれば、私はプレイヤーが異なる強さを持っていることを証明する（またはチェックする）方法を持ちたいです。どうすればできますか？

追加されました

具体的には、8人のプレイヤーと18のゲームしかありません。そのため、互いに対戦しなかったプレイヤーのペアがたくさんあり、お互いに一度だけプレイしたペアがたくさんあります。結果として、私は与えられたプレーヤーのペアの勝利の確率を推定できません。たとえば、6ゲームで6回勝ったプレーヤーがいることもわかります。しかし、それは単なる偶然かもしれません。

goodness-of-fit ranking rating

— ローマン
ソース

すべてのプレイヤーが同じ強さを持っているという帰無仮説をテストしますか、それともプレイヤーの強さのモデルの適合を確認しますか？

— ワンストップ

@onestop：同じ強さを持っているすべてのプレイヤーは、ありそうにないでしょう？なぜこれを仮説として提案するのですか？

— エンドリス14年

10

確率モデルが必要です。

ランキングシステムの背後にある考え方は、1つの数字がプレイヤーの能力を適切に特徴づけることです。この番号を「強さ」と呼ぶかもしれません（「ランク」は統計上の特定の何かをすでに意味しているため）。強さ（A）が強さ（B）を超えると、プレイヤーAはプレイヤーBに勝つと予測します。ただし、（a）定量的ではなく、（b）弱いプレーヤーが時々強いプレーヤーを破る可能性を考慮していないため、この声明は弱すぎます。AがBを打つ可能性がその強さの違いのみに依存すると仮定することにより、両方の問題を克服できます。 そうであれば、強さの差が勝ちの対数オッズに等しくなるように、必要なすべての強さを再表現できます。

具体的には、このモデルは

l o g 私 t （ Pr （ A ビート B ） ） = λ_{A} - λ_{B}

$\mathrm{logit}(\Pr(A \text{ beats } B)) = \lambda_A - \lambda_B$

ここで、定義によって、対数オッズと私は書かれている等、プレイヤーAの強度を $\mathrm{logit}(p) = \log(p) - \log(1-p)$ $\lambda_A$

このモデルにはプレイヤーと同じ数のパラメーターがあります（ただし、相対的な強さしか識別できないため、自由度が1つ少なくなります。したがって、パラメーターの1つを任意の値に修正します）。これは一種の一般化線形モデルです（ロミットリンク付きの二項族）。

パラメーターは、最尤法によって推定できます。同じ理論により、パラメーター推定値の周りの信頼区間を設定し、仮説をテストする手段が提供されます（推定値によると、最強のプレーヤーが推定された最弱のプレーヤーよりも著しく強いかどうかなど）。

具体的には、一連のゲームの可能性は製品です

\prod_{すべてのゲーム} \frac{\exp （ λ_{勝者} - λ_{敗者} ）}{1 + \exp （ λ_{勝者} - λ_{敗者} ）} 。

$\prod_{\text{all games}}{\frac{\exp(\lambda_{\text{winner}} - \lambda_{\text{loser}})}{1 + \exp(\lambda_{\text{winner}} - \lambda_{\text{loser}})}}.$

の1つの値を修正した後、他の推定値はこの尤度を最大化する値です。したがって、推定値を変更すると、その可能性が最大値から減少します。減らしすぎると、データと一致しなくなります。このようにして、すべてのパラメーターの信頼区間を見つけることができます。これらは、推定値を変化させても対数尤度が過度に低下しない限界です。一般的な仮説も同様にテストできます：仮説は強さを制限し（それらがすべて等しいと仮定するなど）、この制約は尤度がどれだけ大きくなるかを制限します。拒否されました。 $\lambda$

この特定の問題では、18のゲームと7つの無料のパラメーターがあります。一般に、これはパラメータが多すぎます。柔軟性が非常に高いため、最大尤度を大幅に変更せずにパラメータを自由に変更できます。したがって、ML機構を適用することは明白であることを証明する可能性があります。つまり、強度の推定値を信頼するのに十分なデータがない可能性があります。

— ウーバー
ソース

2

s_{A} = \exp (λ_{A})

$s_A = \exp(\lambda_A)$

A

$A$

B

$B$

s_{A} / (s_{A} + s_{B})

$s_A/(s_A + s_B)$ 。（3）フルラウンドロビントーナメントが行われた場合（ここでは当てはまりません）、強さのランキングは各プレイヤーの勝率と正確に一致します。（4）適合度は、プレーヤーをノード、ゲームをエッジとするグラフ上のフローに関連しています。

— 枢機

（続き）Lester R. Ford、Jr .は、Amerでこの考えに基づいたフィッティングアルゴリズムについて議論している記事も持っています。父に敬意を表して書かれた1957年の数学月刊作品。

— 枢機

4

各プレイヤーがそれぞれのゲームで勝ち負けする可能性が高いという帰無仮説をテストする場合は、勝者と敗者を集計することで形成される分割表の対称性のテストが必要だと思います。

各ゲームの勝者と敗者のIDを含む「勝者」と「敗者」の2つの変数を持つようにデータを設定します。つまり、各「観測」はゲームです。その後、勝者と敗者の分割表を作成できます。あなたの帰無仮説は、このテーブルが対称的であると予想するということです（平均してトーナメントを繰り返します）。あなたの場合、あなたはほとんどのエントリがゼロである8×8のテーブルを取得します（会ったことのないプレーヤーに対応）。テーブルは非常にまばらなので、漸近に依存するテストではなく、「正確な」テストがほぼ確実に必要になります。

このような正確なテストは、対称コマンドを使用してStataで使用できます。この場合、構文は次のようになります。

symmetry winner loser, exact

私があまり知らない他の統計パッケージにも実装されていることは間違いありません。

— ワンストップ
ソース

（+1）おもしろい。このStataコマンドが遺伝学の伝達/不均衡テストに使用される可能性があることに気付いた:)以前の応答stats.stackexchange.com/questions/5171/…でRパッケージについて説明しました。

— -chl

実際、TDTは、上記でリンクしたStataヘルプで説明されているアプリケーションの1つです。また、このテストに最初に出くわしたコンテキストでもあります。その前のQへのリンクをありがとう。投稿されたとき、他のQで忙しかったようです。

— ワンストップ

質問は仮説のテストに言及していますが、強調の選択は適合度の質問にあります：単一の数値（スカラー）強度はプレーヤー間の試合の結果を効果的にモデル化していますか？

— whuber

1

Mark Glickmanの出版物をいくつかチェックしましたか？それらは関連しているようです。 http://www.glicko.net/

評価の標準偏差の暗黙は、ゲームの期待値です。（この標準偏差は、基本的なEloでは特定の数値に固定され、Glickoシステムでは可変です）。ドローによる勝ちの確率ではなく、期待値と言います。Eloの評価について理解するための重要なことは、基礎となる分布の仮定（たとえば、正規分布またはロジスティック分布）と仮定された標準偏差です。

Elo式のロジスティックバージョンは、評価差の110ポイントの期待値が0.653であることを示唆しています。たとえば、プレーヤーAは1330、プレーヤーBは1220です。

http://en.wikipedia.org/wiki/Elo_rating_system（OK 、それはウィキペディアのリファレンスですが、私はすでにこの答えに多くの時間を費やしました。）

これで、各プレーヤーの評価に基づいた各ゲームの期待値と、ゲームに基づいた結果が得られました。

この時点で、次に行うことは、低から高へのギャップを配置し、期待される結果と実際の結果を合計することにより、これをグラフィカルに確認することです。したがって、最初の5ゲームの合計ポイントは2で、予想ポイントは1.5です。最初の10ゲームでは、合計ポイント8、予想ポイント8.8などがあります。

（コルモゴロフ-スミルノフ検定の場合のように）これらの2本の線を累積的にグラフ化することにより、期待される累積値と実際の累積値がお互いをうまく追跡するかどうかを確認できます。他の誰かがより正式なテストを提供できる可能性があります。

— zbicyclist
ソース

1

評価システムの推定方法がどれほど正確であるかをテストするための最も有名な例は、チェス評価-Elo 対Kaggleのその他の世界の競争で、その構造は次のとおりです。

競合他社は、8,631人のトッププレイヤーに対して65,000以上の最近の結果のトレーニングデータセットを使用して、評価システムをトレーニングします。その後、参加者はメソッドを使用して、さらに7,809ゲームの結果を予測します。

勝者はElo ++でした。

理論的には、18の一致が適切なテストベースではない場合でも、ニーズに対する適切なテストスキームのようです。あなたも、（ここにある様々なアルゴリズムの結果の違いを確認することができ、比較の間rankade、私たちのランキングシステム、および最も含め、知らエロ、GlickoとTrueskill）。

— 富masねり
ソース

0

$H_0$

これの簡単なテストは、以前にプレイしたゲームが多いプレイヤーが勝つ回数の割合を計算し、それを二項累積分布関数と比較することです。それは何らかの効果の存在を示しているはずです。

ゲームのElo評価システムの品質に関心がある場合、簡単な方法は、Eloモデルの予測パフォーマンスで10倍の交差検証を実行することです（実際には、結果はiidではないが、私は無視します）、それをコインフリップと比較します。

— セスク
ソース

具体的には。私は8人のプレイヤーと18ゲームしか持っていません。そのため、互いにプレーしなかった多くのペアがあり、互いに1つだけプレーしたペアがたくさんあります。結果として、私は与えられたプレーヤーのペアの勝率を見積もることができません。また、たとえば、6ゲームで6回勝ったプレーヤーがいることもわかります。しかし、それは単なる偶然かもしれません。

— ローマ