格付けインフレに関する多くの研究がありましたか?


24

2012年のロンドンチェスクラシックの昨日のラウンドでのマグナスカールセンの引き分けは、次の公開されたFIDE評価リストでの彼の評価がカスパロフの以前の2851の記録を上回ることを保証しました。対、例えば、フィッシャーの。明確にするために、それは私がここにいるものではありません。

このような議論の重要な要素の1つは、Eloの評価が一般に時間の経過とともにインフレーションを受けたかどうかという概念です。数字の全体的なインフレ傾向?また、そうであるかどうかについての素朴な意見を求めるつもりもありません。私が知りたいこと:

FIDE Eloのレーティングが、プレーヤープールの全体的な強さの上昇以外の理由で時間の経過とともに自然に膨らんだかどうかに関する経験的な質問に答えるために、どのような真剣な研究が試みられましたか?

Eloレーティングシステムに関するウィキペディアのエントリには、この問題について少し説明する必要があります。また、Chessmetricsの Jeff Sonasによる記事も示しています。他の人による仕事への指針に加えて、私は、ソナスの主要なポイントの明確で簡潔な要約を与える答えを歓迎します。


考えるべきもう1つのことは、USCF格付けのインフレです。USCFはこれまでも、また定期的にもプレイヤーの恐怖を調整しています。USCFとFIDEは基本的に同じシステムを使用しているため、インフレがFIDEではなくUSCFに影響を与える可能性がある場合、私は驚くでしょう。
トニーエニス

2
システムは同じではありません。たとえば、USCFには格付けフロアがあり、これは明らかにインフレ要因です。
-RemcoGerlich

回答:


19

Ken ReganとGuy Haworthの論文「Intrinsic Chess Ratings」がまだ掲載されていないことに驚いています。それがまさに求められている、格付けインフレに関する真剣な研究です。PDF

基本的に、3つの期間(1976-1979、1991-1994、2006-2009)からいくつかのレーティング範囲(たとえば、2200の10ポイント以内、2300の10ポイント以内など)でゲームを獲得し、チームマッチのように異常な場合があります。論文を読んで、それはかなり徹底的に見えます。

その後、彼らはゲームをRybka 3と体系的に比較しました。

結論からのいくつかの文:

実際のプレイヤーのEloレーティングと、チェスプログラムとエージェントフィッティングによって測定されるムーブ選択の本質的な品質との間には、スムーズな関係があると結論付けています。さらに、取得された最終的なsfit値は、3つの期間すべての対応するエントリでほぼ同じです。

私の見解では、格付けインフレの存在に対する非常に堅実な証拠です。


1
これを投稿してくれてありがとう、私もこれを共有するようになりました。これは、プレイヤーを客観的な基準と比較した唯一の研究ラインです。インフレ率の格付けに関して私が見た議論はすべて主観的であり、一般的に逸話的です。個人的には、Morphyがおそらく2300だったという事実は、当時の彼のゲームや彼のライバルに対する彼のスキルに対する私の評価を失うとは思わない。
サムコープランド

12

私はいくつかの周りを突いた。おそらくこれらのページを見たことがありますが、とにかくそれらを投稿します。

a。このページはあなたの興味を引くでしょう。エロ自身からの手紙のコピーの可能性が含まれています:

したがって、時間をかけて安定化するための何らかの対策を講じない限り、評価尺度は変動する可能性があります。

彼はさらに、評価尺度にはアンカーも固定点もないと述べています。1時間でレースを行うアスリートと比較してください。1時間は50年前の1時間と同じです。 時間はそのような不動点です。

b。また、「インフレ」の問題は、最近、孤立した地域からの高い評価の暴露によって答えられていないのですか? 問題の暗示については、このページの「Pool of Players」セクションを参照してください追加のサポート。ただし、学術的でも特に有益でもありません。「isol」を検索します。 孤立した集団で起こることを示す別の逸話があります(「チェスプレイヤーがクレイジーな理由」スレッドの別の候補です!)事実を確認しませんでしたが、簡単にできるはずです。

c。エロウィキ記事のインフレに関する協議、それが受け入れられたという事実だかのように。

d。これがインフレについてのドイツ語の記事フォローアップです。1986年にその喫煙銃を見てください!


からのページを見ていませんでした。ありがとう。b。については、あなたが何を言っているのか私は知りません。詳しく説明してもらえますか?
ETD

2
実際のアンカーがなければ、正確に調整することは不可能だと主張します。最終的に、任意の値に向かって逸話的に調整しているだけです。
ダニエルB

おそらく。しかし、同様の分布曲線が得られるように評価を調整することは、おそらく良いスタートです。たとえば、数年前、USCFは平均的なクラブプレーヤーが1500人になるようにレーティングを調整しました。彼らがまだそうするかどうかはわかりません。
トニーエニス

1
@TonyEnnis確かに、今のところはおそらくそれが得られると思います。具体的には、「今日の平均的なクラブプレーヤー」が実際に50年前よりも優れている場合はどうなりますか。過去のプレイヤーと対戦できるわけではありません...だから、プレイヤーの強さをどうにかして推定し、調整する必要があります。おそらく、コンピュータープログラム(標準の規定されたプラットフォームで実行)を使用すると、ある種の公平で永続的なアンカーを持つことができます。しかし、たとえこのようなベンチマークプログラムなどに対してうまく機能する戦略の発見などの問題、持っているだろう
ダニエルB

5

絶対的に言えば、Carlsen 2012は確かに1985年のKasparovよりも強力なプレーヤーです。

Carlsen 2012が時間通りに旅行した場合、1986年にKasparovと対戦し、CarlsenはKasparovを破ります。これは単に、技術支援による準備がはるかに効率的であるためです。また、Karsparovにはない蓄積された知識1987-2012を持っているため、Carlsenは開会理論にも優位性があります。

ただし、KasparovはおそらくCarlsenよりも強力なプレーヤーです。2000年6月のFIDEトップ100リスト(最も古いリスト)を取得すると、2849のEloを持つKasparovは、99人のフォロワー(Eloの距離208ポイント)で平均2641と競合し、Fide Top 100のカルセンは2012年12月の2848 Eloでは、99人のフォロワー(平均距離146ポイント)に対して平均2702で競います。

Eloは絶対値ではなくポイントの差に関するものです(Eloの差が100ポイントの場合、プレーヤーAはプレーヤーBの2倍、200ポイントは4倍のようになります。したがって、そのリストでは、 Kasparovは、彼の99人のフォロワーの平均よりも平均で4倍以上優れていましたが、Carlsenはおそらく99人のフォロワーの平均よりも3倍しか優れていません。

Kasparovが彼の99人のフォロワーとの最大距離を持ち、その距離をCarlsenの最高の距離と比較すると、リストを取得すると、99個のデータポイント、外れ値(別の天才のような)軽減してください。

しかし、カールセンとカスパロフのどちらが優れているのか本当に気にかけているのだろうか。


3
KasparovがCarlsenよりも強いプレイヤーであるというあなたの主張は、それぞれを次の99人の最高のプレイヤーと比較することにかかっています。正しく、Eloの評価は相対的であることに注意してください。しかし、あなたの議論は、2番目の、無言の仮定、つまり、今日の次の99人のプレイヤーはKasparovの全盛期の次の99人と同じ平均戦力であるということです。2番目の仮定が当てはまらない場合は、KasparovとCarlsenを異なる基準と比較しています。今日、カスパロフの時代と同じ人々の集まりを見つける必要があります。そのプールはおそらくスーパーグランドマスターではなく、平均的な初心者です。
Thucydides411

4

Eloのシステムには2つのコンポーネントがありました。1つは歴史から独立しており、もう1つはそうではありませんでした。イベントの期間または期間にわたって「パフォーマンスレーティング」を作成する彼のシステムには、歴史的な要素がありませんでした。これは、指定された時間にわたるパフォーマンスの単なる尺度でした。(メモリはこの点で私に失敗しますが、彼がFIDEの評価を計算していたとき、これは彼が使用した方法だったと思います。)

ただし、世界中のフェデレーションで使用されているEloシステムには、過去のコンポーネントがあります。つまり、格付けは、以前の格付けからの変化であるデルタを計算することで計算されます。

歴史に基づくシステムは、デフレに向かう自然な傾向を持っています。システムはクローズドシステムであり、新しいポイントは作成されません。そのため、新しいプレーヤーが入り、確立されたプレーヤーからポイントを取得し、(死亡またはリタイアメントを通じて)終了してから、それらすべてのポイントを次の上昇プレーヤーのバッチに戻します。

これを補うために多くのアイデアが試されてきましたが、いくつかは他のアイデアよりもうまく機能しています。これに加えて、70年代前半のUSCFにおける格付けを速くするという商業的圧力を加えます(むしろ皮肉な見方は、プレイヤーがUSCFから本を購入してトーナメントでプレイし、彼らの格付けが上がり、別のものを購入することを奨励することでした書籍など)、インフレは歴史のある時点で本物でした。

Eloのシステムは通常の(ベル)曲線に基づいているため、どちらかの極端を測定してインフレを測定するのはナンセンスです。極端は、実際の強さや何らかのインフレの変化よりも、評価されるプレーヤーの総数によって影響を受ける可能性があります。


1

簡単なアイデアがあります。20年前に評価されたチェスコンピューター(ハードウェア+ソフトウェア)を20年前に評価し、20年前に評価された他のチェスコンピューターとプレイしてみましょう。さて、今日の評価で知られている現代のチェスコンピューターでプレイして、その評価(正確に同じハードウェアと正確に同じソフトウェア)を測定しましょう。2つの測定値の差は、過去20年間の格付けインフレを構成します。簡単ですか?


人間のプレイヤーではなく、コンピューターのレーティングインフレーション多かれ少なかれ計算します。人間は、コンピューターと対戦する方法が異なります。
グローフィンデル

1

Regan-Haworthの論文の結論は、ゲームの他のコンピューター分析、より優れたソフトとハードウェア、およびより高度な数学的手法と矛盾するように思われるため、一概には言えません。そこで、彼らは結論づけます(表9を参照)。たとえば、1977年のKarpovは2001年のKasparovおよび2008年のAnandよりわずかに低いレベルでプレイし(2005年のTopalovおよびPonomariov 2011. Kasparov-2001はKarpov-1977よりも150ポイント高いため、評価ではポイントの70%を獲得することが期待されます。これを格付けインフレがなかったという主張と調和させる方法がわかりません。

また、質問の暗黙の主張とは反対に、レーティングがプレーヤープールの全体的な強さの変化を反映するメカニズムはありません。経験的には、2600プレーヤーの典型的な強さは一定期間変化していない場合がありますが、これはELOシステムの基本的な特性を反映したものではなく単なる偶然であり、一般化できません。

インフレ率を単純に定義し、上位100人のプレイヤーの平均評価を測定するだけの場合、このリンクからわかるように、2012年まで安定したインフレがあり、それ以降はインフレがありませんでした-トップ100の平均評価は2700の間で変動しました過去7年間で2705


0

最初に、最良の意味を定義する必要があります。たとえば、あなたがあなたの時代の最も支配的なプレイヤーであることを最も意味しますか?または、プレーヤーの品質が他のすべてのプレーヤーよりも優れていることを意味しますか。そして、品質があなたが意味するものである場合、どのように品質を定義しますか?

ポール・モーフィーはおそらく最も支配的なプレーヤーでした。たとえば、彼が12歳だったとき、彼はマッチ3-0でトップ10プレーヤー(Lowenthal)を破りました。江戸とチェスメトリクスによると、彼はおそらくすでに12歳で世界で最高の選手の一人でした!21歳で、彼は5人の上位10人のプレイヤー(バード、バーンズ、ボーデン、デレヴィエール、およびローエンタール)と同時対戦し、3-2を記録しました。

しかし、ほとんどの人は、優位性はだれが最良であるかを示す不十分な指標であると主張します。結局のところ、Morphyは最初の近代的なチェスプレーヤーと言われています。彼の競争はその後のチャンピオンと比較して弱かった。

使用されている別の定義は、プレイの質です。ただし、この定義には多くの問題もあります。1900年には、多くの個人が、シュタイニッツまたはラスカーが、オープニングと現代の理論に関する知識によって過去のプレイヤーよりも優れていると主張してきた最高のプレイヤーであると主張しました。しかし、ルイ・ポールセンはこの仮説に対していくつかの非常に巧妙な議論をしました。彼は、Morphy(写真の記憶があり、19歳までにルイジアナのバーコードを覚えていた)が生き返れば、1年以内にオープニングと現代の理論を学び、現代のチェスプレーヤーとうまく競争できると主張しました。

リーガンは、チェスのコンピューターと最新のトレーニング方法にアクセスできる現代のチェスプレーヤーは、過去のプレーヤーよりもコンピューターのようにプレーすると主張します。彼らはコンピューターによって訓練されたので、それは驚くことではありませんが、それは現代のプレーヤーが本当に優れていることを意味しますか?これは、フィッシャーやカパブランカが現代のコンピューターにアクセスできたらどうするかという疑問を投げかけます。

さらに、レーガン教授の分析コンピューターは、わずか5年の期間しかかからず、分析に含まれるプレーヤーについては言及されていないため、かなり不完全です。教授Matej GuidとIvan Bratkoによるより徹底的なコンピューター分析では、実際、Capablancaは現代のプレイヤーよりもコンピューターのようにプレイされていることがわかりました。https://en.chessbase.com/post/computers-choose-who-was-the-strongest-player-。しかし、GuidとBratkoは、Capablancaが優れたプレーヤーであると結論付けることには問題があると指摘しました。おそらく彼の落ち着いたスタイルは、彼が失敗する可能性のあるポジションを少なくしました。したがって、彼の失策率は低くなりましたが、彼はまた、より攻撃的なプレイヤーよりも相手にあまりプレッシャーをかけていませんでした。実際、カパブランカは同時代人と比較して高い引き分け率を示しました。

対照的に、Kasparovなどの非常に戦術的なプレーヤーは、コンピューターが特にエラーを発見するのに適した非常に戦術的なポジションにつながる可能性が高い彼のプレースタイルによってペナルティを受ける可能性があります。実際、コンピューターは戦術的なプレーヤーに対して、戦術がより重要でない位置的または特定のクローズドポジションのプレーヤーよりも優れている傾向があります。したがって、コンピューターで検出されたエラーの数に依存するコンピューター分析は、落ち着いたクローズドポジションプレーヤーを支持する可能性があります。対照的に、Kasparovのような攻撃的なプレイヤーは、他のプレイヤーよりも戦術的なミスを犯す可能性があります。なぜなら、彼は非常に複雑なポジションを探していたからです。

したがって、100移動あたりのエラーの割合を計算するだけではないエラー重み付けシステムが必要です(これは、基本的にReganとGuidとBratkoがしたことです)。代わりに、エラー率と相手のエラー率の差を計算する必要があります。結局のところ、チェスは相手よりも少ないエラーをコミットすることです。より多くのエラーを誘発するように相手に圧力をかけることは、良い品質と見なされます。

しかし、私の修正された計算方法は、これらのコンピューター分析が相手の強さを考慮しないという別の問題につながります。たとえば、彼の攻撃的な(楽観的な)スタイルが低評価のプレイヤーよりも優位になったため、おそらくラーソンは非常に高いチェスメトリックの評価を達成しています。しかし、彼は同じ格付けのプレイヤーに対するゲームで問題を抱えていました。他のプレイヤーは、他の高評価プレイヤーとの対戦で楽観的すぎると頻繁に主張しています。この問題を回避するために、コンピューターエラーチェック分析では、強力な競合相手(トップ10、20、100人のプレイヤーなど)に対するゲームのみを調べる必要があります。ただし、それでも時間の経過に伴う激しい競争の増加の問題に対処できません。

チェスメトリクスなどのバックレーティングを見ると、プレイの質が向上する問題を修正できますか?実際、江戸のバックレーティングシステムhttp://www.edochess.ca/を好む統計的な仮定がより良いからです。たとえば、チェスメトリックスは、40歳のときにプレイヤーのピーク評価が発生すると想定しています。それは誰にも当てはまらないと思いますし、多くのプレイヤーはその年齢の前にチェスをあきらめるか、彼らのプレーは数年の間一流でした(例えば、ハリーネルソンピルズベリー、シャローセック、フィッシャー、モーフィ、ルービンシュタイン、ファイン)。残念ながら、江戸は1811年から1920年までのプレイヤーのレーティングのみを比較します。江戸によると、CapablancaとMorphyはこの時代の2人の最高のプレイヤーと評価されています。Chessmetricsによると、CapablancaとLaskerは2人のベストプレイヤーでした(Morphyはトップ10にさえなりません)。 Duras、Teichmann、Neumann、Vidmar、Gunsberg、Rubinstein、およびBurnはMorphyよりも優れていました。

技術革新が特定のチェスの時代に時間とともに優位をもたらし、競争の強さが増すにつれて時間とともに革新することがますます困難になる場合、上位30人のプレーヤーの試合記録を見ただけでは真の優位性を測定することはできません。つまり、マグナスカールセンが過去のチャンピオンよりも対戦相手を支配することははるかに困難です。バックレーティングを見ると、トッププレイヤーのレーティングの差の大きさが時間の経過とともに減少していることが簡単にわかります。ですから、時間をかけて支配することの困難さを考慮した江戸型の統計モデルは、以前に試みられたものよりも良いアプローチだと思います。たとえば、フィッシャーは20試合連続で勝利したため、彼の時代にはかなり支配的な選手でした。この連勝と比較して、カスパロフまたはカルポフの最長連勝は何でしたか?Seirawanによると、彼らの最長勝ち線は7ゲームでした。

もちろん、ストリークを勝ち取ることは良い指標だと主張しているわけではありません。レーティングによる優位性や、他のトッププレーヤーとの個別の試合における優位性は、現在のバックレーティングシステムでは明示的に考慮されていない有用な指標であると主張しています。

したがって、私の夢の分析は、各5年間の上位20または30人のプレイヤーのみを含むデータベースに基づいて、江戸格付けを使用することです。この分析を完了した後、支配因子によって結果の重み付けを変更します。つまり、最近のプレーヤーは、時間の経過に伴う支配の難しさの軌跡を推定することによって計算されるボーナス係数を取得します(時間の経過に伴う上位30人のプレーヤー間の格差の減少)。次に、チェスコンピューターで計算された対戦相手の失策から自分の失策を引いたものの割合を比較することで、この分析を検証します。これにより上記が無効になった場合、支配要因を考慮した後でも、最近のトッププレーヤーがより正確にプレイする傾向がある場合は、コンピューターエラーチェック分析に従って再重み付けする必要があります。

私がこれを目撃したことに基づく推測は、Kasparovが非常にうまくいくということです。しかし、それは単なる推測です。


2
これは質問に答えていないようです。
ハーブウルフ

私のポイントは、チェスの能力を定義するまで、格付けインフレについての質問に答えることができないということです。レーティングインフレの調整を試みたり、チェスチャンピオンの能力が時間とともにどのように変化するかを判断したりする研究をレビューしました(レーティングインフレとは何ですか)。問題は、研究者がチェスの能力と信じるものについての仮定を実際に特定していないことだと思います。私の意見では、チェスの能力を定義せずに、チェスの能力が時間とともに変化するかどうかの質問に答えたり、インフレ率を評価したりすることはできません。
トッドM
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.