「Million Base」PGNデータベースに基づいた簡単なダーティ分析を次に示します。急いでこれをやったので、プログラミングやロジックにエラーがあるかもしれません。深刻すぎるものには使用しないでください。 更新-注:実際、データセットを間違えて、最初の100万レコードに制限していることに気付きました。完全な状態で再度実行するための空き時間ができたら、更新を投稿します。それまでの間、これらの数値は興味深いはずです。
データの取得:
top-5000.nlサイトは実際にダウンロードしようとすると404のように見えるため、このURLからMillion Base 1.74ファイルを取得しました。このファイルには、PGNエクスポート形式で100万を超えるゲームが含まれています(つまり、解析が容易です)。
残念ながら、ゲームの60%以上には評価情報がなく(「WhiteELO」タグと「BlackELO」タグを探していました)、両方のプレイヤーの評価があったものはさらに少なくなりました。最終的に、できるだけ多くのサンプルサイズを取得することにし、他のプレイヤーの評価に関係なく、評価がわかっている場合はプレイヤーの動きをカウントしました。
プロセス:
ゲームは一つずつ解析された、そしてプレイヤーの評価が知られていた場合は、すべての彼らのそのゲームのための移動は、プレイヤーの格付けグループの集計に追加されます。評価を100のグループに分割することを選択したため、たとえば1600〜1699は単一のグループでした。
PGNの実際の移動テキストはSANであるため、移動をカウントするために次のショートカットを使用しました:ナイト(N)、ビショップ(B)、ルーク(R)、クイーン(Q)およびキング(K)の移動はすべて、作品の文字で始まります。キャスリング(OOおよびOOO)は、特別なケースとして個別にカウントされました。残りのすべての動きは、さらに調べることなくポーンの動きとしてカウントされました。
データのクリーンアップは行われませんでした。外れ値を特定して削除する試みはありませんでした(たとえば、非常に短いゲームや長いゲームなど)。次の分析では、1600未満のレーティングの結果を保持しましたが、これらのゲームのサンプルサイズは100を大きく下回ったため、結果に大きなばらつきが生じました。生データは、この投稿の最後に提供されています。
情報のいくつかの欠点:現時点では、非常に基本的な合計のみを収集し、平均を提供しています。一般的に、データは正規分布ではないが、実際にrawカウントを出力して統計プログラムで実行しない限り、これ以上言うことはできないと確信しています。興味があれば、そうするかもしれません。現時点では、これは信頼区間がないこと、またはそれらの平均が表す数値の分布に関するその他の情報を意味します。また、データセットが何年にわたるかを確認していません。もしそれが長年を表す場合、フィールドの全体的な強度を修正しようとするのが有益かもしれません。
いくつかのトレンド:
プレイヤーの評価に関する一言-遭遇した最も頻繁な評価グループは、2400〜2500、2500〜2600、2300〜2400の順でした。これらの評価グループは、ゲームの72%をカウントしました。
実際の結果を見ると、平均的なゲームの長さは少し驚きでした。
サブ2000のレーティンググループはすべて、上位のグループよりもかなり短いゲームでした。これは、彼らがより強力な対戦相手をプレイしている可能性(上記の平均評価を参照)と、より少ない動きで敗北した可能性によって説明されるかもしれません。これは、トップレーティンググループがプレイするわずかに短いゲームに反するように見えますが、サンプルサイズが小さくなっている可能性があります。
平均ゲーム時間の比較的大きな違いは、ピースが移動された合計回数ではなく、特定のピースを移動する頻度を提供することが、おそらくより公平な比較であることを意味しました。頻度を計算すると、次のグラフが表示されます。
次の傾向が存在するようです。
- 騎士の動きの頻度は、評価とともにわずかに下降傾向にあるようです。
- ビショップは約2000年までトレンドを下降させ、その後ゆっくり上昇させます。
- ルークの動きはほぼ同じポイントで急激に上昇し、高レベルのプレイでビショップが動くよりも頻繁に動きます。
- ポーンの動きは、レーティングが上がるとわずかに下向きの傾向があるようです。大きな例外は、2800から2900までのトップカテゴリです。これにより、次のポイントに進みます。
- 最高評価のカテゴリは、非常に多くの測定値で異常値または逆トレンドを提供します。これはさまざまな方法で説明できます。1)サンプルサイズは363とかなり小さく、小さくはありませんが、次に含まれるサンプルサイズの10%です。2)彼らは評価グループのトップにいるので、彼らは自分よりも「強い」対戦相手を演じることはありません。3)または単にこのレベルでは、彼らのプレイスタイルはその下のレベルを超越しています。私の推測では、1)と2)の組み合わせになります。
- 女王の動きとキャスリングの動きの違いは、どちらの場合も小さな下降傾向を除いて、実際の傾向なしで非常に小さいです。
- キングの動きの頻度には、最大の違いがいくつかあります。明確な傾向は見られず、方向を3〜4回変えるようです。
さらなる分析
将来の分析のためのいくつかのアイデア:
- 基本的な統計修正:非常に短いゲームと長いゲームはおそらく除外されるべきだと思います。また、実際のカウントの分布は非常に重要です。
- 分析をさらに分割すると、興味深い結果が得られる場合があります。たとえば、白黒の周波数がどのように一致するかを知りたいと思います(それらは同じですか、異なるのですか?なぜ?)。
- 格付けの違いによる分類も興味深いかもしれませんが、はるかに強力な対戦相手(たとえば、200以上の格付け)をプレイするプレイヤーは、異なる移動頻度でプレイしますか?残念ながら、これには両方のプレイヤーのELOを知る必要がありますが、このデータセットではまれです。
- ショートキャッスルとロングキャッスルの傾向も、評価によって異なる場合があります。
- ピースプロモーション統計、いくつかの軽い構造分析(たとえば、ポーンの倍増、パッサン、ピン、フォーク、評価で表示)は洞察に満ちているかもしれません。
- 評価によって示される、実際のボード上のピース配置の「ヒートマップ」も非常に興味深い場合があります。
データをCSV形式で集計する
データを試してみたい人のために、お気軽に。
評価範囲、サンプルサイズ、平均ゲームの長さ、平均ポーンの動き、平均ナイトの動き、平均ビショップの動き、平均ルークの動き、平均クイーンの動き、平均キングの動き、平均キャスリング
1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857