この質問は、チェスのゲームで平均して異なるタイプのピースがどれくらい頻繁に動かされるかについてのRamon Snirの以前のものの派生です。私の質問：

弱いプレーヤーのゲームとは対照的に、強いプレーヤーのゲームを見るとき、与えられた種類のピースの動きの相対的な数は異なりますか？（たとえば、弱いプレイヤーはピースの動きを犠牲にしてポーンの動きを増やす傾向があるか、クイーンの動きが多すぎます。私にはわかりません。）

他の人が大規模なデータベースから抽出した生データを使用して、以前の質問に答えることができました。そのデータは、グランドマスタープレイから弱いアマチュアプレイに至るまでの4M +ゲームのサンプルから得られたものであり、そこに与えられた移動合計の合計数は、プレイヤーの強さに基づいて区別されません。私の質問に答えるには、強いプレイヤー同士のゲームと弱いプレイヤー同士のゲームの個別のデータを取得する必要があり、逸話ではなくデータでバックアップされた回答を探しています。

私の質問のより具体的な形式は次のとおりです。

作品の種類ごとに分類されたゲームの平均移動数を見ると、Nを超えるプレイヤーをフィーチャーしたゲームで見つけたものと、ゲームで見つけたものとの間に大きな違いがあるようなElo評価しきい値NがありますN以下のプレイヤーをフィーチャー

この種のこと、つまりデータマイニングによって検出できるより強いプレーヤーとより弱いプレーヤーの具体的な違いももっと見つけられると面白いと思います。このような調査結果は、プレイヤーを遠ざける特定の行動、または逆にプレイヤーを前進させる特定の行動を示す可能性があります。さて、この種のデータを見ただけではそのような違いは見られないかもしれませんが、私もそれを知りたいと思っています。

learning statistics pieces

— ETD
ソース

このような集約されたデータについては、ポイントを見逃す可能性があるため、少し疑っています。一部のゲームは、駒を押して駒でプレイすることによって決定されます。移動する部分の頻度は、移動の品質については何も言いません。開口部で1つのピースを頻繁に動かしてはならないという経験則があります。ただし、位置によって正当化される場合、強力なプレイヤーはこの戦術を採用することがあります。

— マイケル

@Michael、私が質問しているような要因はそれ自体が良いプレーを示すものではないことに完全に同意します。たとえば、Aronianと同じ相対頻度で作品の種類を移動しても、もちろん彼が演奏しているわけではありません。しかし、だからこそ、たとえばElo 1800を超えると、これらの相対周波数に検出可能な差はありません（1800を超える能力には大きな範囲があります）が、1800を下回ると大幅に歪んでしまいます。データ内のその結果は、プレイヤーがその強さのしきい値を下回っている背後の1つの要因を示している可能性があります。

— -ETD

データは、グランドマスターが他のグランドマスターと向き合っているとき、および同様に少ないプレーヤーで何をしているのかを示すことに留意してください。理想的には、同じポジションで良いプレーヤーと悪いプレーヤーが何をするかを比較したいと思うでしょうが、それはおそらくオープニング以外ではデータマイニングでは不可能でしょう。

— エヴァンハーパー

@EdDean-これは非常に興味深いトピックです。彼が正確に4M +のゲームを手に入れたアイデアはありますか？信頼できるが無料のソースから、かなりのサイズ（たとえば、10万ゲーム以上）を入手できる場所はありますか？「オンライン検索可能」ではなく、簡単にダウンロードできるソースを具体的に考えています。

— ダニエルB

ただフォローアップするために、ウィキペディアにはチェスゲームコレクションに関する素晴らしいページがあります。これらのうち、最初のリンクは断然最も有望であると思われました（ダウンロードする比較的少数の圧縮されたPGN）が、大きなセクションが欠落しており（ECOコードBからE）、分析が非常に一方的でまったく役に立たなくなります。

— ダニエルB

「Million Base」PGNデータベースに基づいた簡単なダーティ分析を次に示します。急いでこれをやったので、プログラミングやロジックにエラーがあるかもしれません。深刻すぎるものには使用しないでください。 更新-注：実際、データセットを間違えて、最初の100万レコードに制限していることに気付きました。完全な状態で再度実行するための空き時間ができたら、更新を投稿します。それまでの間、これらの数値は興味深いはずです。

データの取得：

top-5000.nlサイトは実際にダウンロードしようとすると404のように見えるため、このURLからMillion Base 1.74ファイルを取得しました。このファイルには、PGNエクスポート形式で100万を超えるゲームが含まれています（つまり、解析が容易です）。

残念ながら、ゲームの60％以上には評価情報がなく（「WhiteELO」タグと「BlackELO」タグを探していました）、両方のプレイヤーの評価があったものはさらに少なくなりました。最終的に、できるだけ多くのサンプルサイズを取得することにし、他のプレイヤーの評価に関係なく、評価がわかっている場合はプレイヤーの動きをカウントしました。

プロセス：

ゲームは一つずつ解析された、そしてプレイヤーの評価が知られていた場合は、すべての彼らのそのゲームのための移動は、プレイヤーの格付けグループの集計に追加されます。評価を100のグループに分割することを選択したため、たとえば1600〜1699は単一のグループでした。

PGNの実際の移動テキストはSANであるため、移動をカウントするために次のショートカットを使用しました：ナイト（N）、ビショップ（B）、ルーク（R）、クイーン（Q）およびキング（K）の移動はすべて、作品の文字で始まります。キャスリング（OOおよびOOO）は、特別なケースとして個別にカウントされました。残りのすべての動きは、さらに調べることなくポーンの動きとしてカウントされました。

データのクリーンアップは行われませんでした。外れ値を特定して削除する試みはありませんでした（たとえば、非常に短いゲームや長いゲームなど）。次の分析では、1600未満のレーティングの結果を保持しましたが、これらのゲームのサンプルサイズは100を大きく下回ったため、結果に大きなばらつきが生じました。生データは、この投稿の最後に提供されています。

情報のいくつかの欠点：現時点では、非常に基本的な合計のみを収集し、平均を提供しています。一般的に、データは正規分布ではないが、実際にrawカウントを出力して統計プログラムで実行しない限り、これ以上言うことはできないと確信しています。興味があれば、そうするかもしれません。現時点では、これは信頼区間がないこと、またはそれらの平均が表す数値の分布に関するその他の情報を意味します。また、データセットが何年にわたるかを確認していません。もしそれが長年を表す場合、フィールドの全体的な強度を修正しようとするのが有益かもしれません。

いくつかのトレンド：

プレイヤーの評価に関する一言-遭遇した最も頻繁な評価グループは、2400〜2500、2500〜2600、2300〜2400の順でした。これらの評価グループは、ゲームの72％をカウントしました。

実際の結果を見ると、平均的なゲームの長さは少し驚きでした。

評価グループ別の平均移動数

サブ2000のレーティンググループはすべて、上位のグループよりもかなり短いゲームでした。これは、彼らがより強力な対戦相手をプレイしている可能性（上記の平均評価を参照）と、より少ない動きで敗北した可能性によって説明されるかもしれません。これは、トップレーティンググループがプレイするわずかに短いゲームに反するように見えますが、サンプルサイズが小さくなっている可能性があります。

平均ゲーム時間の比較的大きな違いは、ピースが移動された合計回数ではなく、特定のピースを移動する頻度を提供することが、おそらくより公平な比較であることを意味しました。頻度を計算すると、次のグラフが表示されます。

周波数を部分ごとに移動する

次の傾向が存在するようです。

騎士の動きの頻度は、評価とともにわずかに下降傾向にあるようです。
ビショップは約2000年までトレンドを下降させ、その後ゆっくり上昇させます。
ルークの動きはほぼ同じポイントで急激に上昇し、高レベルのプレイでビショップが動くよりも頻繁に動きます。
ポーンの動きは、レーティングが上がるとわずかに下向きの傾向があるようです。大きな例外は、2800から2900までのトップカテゴリです。これにより、次のポイントに進みます。
最高評価のカテゴリは、非常に多くの測定値で異常値または逆トレンドを提供します。これはさまざまな方法で説明できます。1）サンプルサイズは363とかなり小さく、小さくはありませんが、次に含まれるサンプルサイズの10％です。2）彼らは評価グループのトップにいるので、彼らは自分よりも「強い」対戦相手を演じることはありません。3）または単にこのレベルでは、彼らのプレイスタイルはその下のレベルを超越しています。私の推測では、1）と2）の組み合わせになります。
女王の動きとキャスリングの動きの違いは、どちらの場合も小さな下降傾向を除いて、実際の傾向なしで非常に小さいです。
キングの動きの頻度には、最大の違いがいくつかあります。明確な傾向は見られず、方向を3〜4回変えるようです。

さらなる分析

将来の分析のためのいくつかのアイデア：

基本的な統計修正：非常に短いゲームと長いゲームはおそらく除外されるべきだと思います。また、実際のカウントの分布は非常に重要です。
分析をさらに分割すると、興味深い結果が得られる場合があります。たとえば、白黒の周波数がどのように一致するかを知りたいと思います（それらは同じですか、異なるのですか？なぜ？）。
格付けの違いによる分類も興味深いかもしれませんが、はるかに強力な対戦相手（たとえば、200以上の格付け）をプレイするプレイヤーは、異なる移動頻度でプレイしますか？残念ながら、これには両方のプレイヤーのELOを知る必要がありますが、このデータセットではまれです。
ショートキャッスルとロングキャッスルの傾向も、評価によって異なる場合があります。
ピースプロモーション統計、いくつかの軽い構造分析（たとえば、ポーンの倍増、パッサン、ピン、フォーク、評価で表示）は洞察に満ちているかもしれません。
評価によって示される、実際のボード上のピース配置の「ヒートマップ」も非常に興味深い場合があります。

データをCSV形式で集計する

データを試してみたい人のために、お気軽に。

評価範囲、サンプルサイズ、平均ゲームの長さ、平均ポーンの動き、平均ナイトの動き、平均ビショップの動き、平均ルークの動き、平均クイーンの動き、平均キングの動き、平均キャスリング

1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857

— ダニエルB
ソース

いいね！ここで数字を実行してくれてありがとう。ちなみに、「詳細な分析」セクションのアイデアのいずれかについて質問がありそうな場合は、お気軽にそうしてください。

— -ETD

@EdDeanありがと、時間の許す限り、おそらくさらに分析を行います。また、さらに改善ができることに気づきました（たとえば、電撃戦やサイマルタンゲームなど）。したがって、おそらく少し手間がかかるでしょう。何かがある場合は、更新プログラムを作成します。

— ダニエルB

ワオ。それはかなりの答えでした。素晴らしい。

— ジェームスTomasino

例えば、強いプレイヤーの間でルークの動きが増えたということは、ルークを同じような位置でより頻繁に動かすのではなく、長いルークのエンディングで終わる可能性が高いことを意味するのであれば驚かないでしょう。

— dfan

@dfan私は同意します、これらの数字はさまざまな二次効果と関係があるかもしれません。例えば、より低い格付けのプレイヤーが早い段階で失敗し、長いエンドゲームに入らないなどです。残念ながら、それらを実装する時間はありません。

— ダニエルB

強いプレイヤーは弱いプレイヤーとは異なる相対頻度で作品を動かしますか？

データの取得：

プロセス：

いくつかのトレンド：

さらなる分析

データをCSV形式で集計する