チェスエンジンの評価はどのくらい正確ですか？

進行中のTCECトーナメントに照らして、私は彼らがこれらのコンピューターの評価をどのように考え出すのかと考えていました。おそらく、2000の評価されたチェスエンジンは、人間の評価された2000に対して約0.5のスコアを期待する必要があります。これにより、チェスエンジンが実際に彼らが言っている評価とほぼ同じかどうかを簡単に確認できます。しかし、これはおそらく3250前後であると思われるkomodoのようなより高い定格のプログラムには問題があります。明らかに、このレベルでは人間はプレイしません。さらに、2800の評価されたコンピューターでさえ人間と対戦しません（magnusがコンピューターと対戦して開発者の評価を定義するのを助けることは疑わしいです）。エンジンがグランドマスターと対戦してその強さを判断するのは疑わしいことです。したがって、これらのエンジンレーティングは、はるか昔に同じような強さの対戦相手をプレイするエンジンによって決定されているのではないかと思います。最近のほとんどの評価は、エンジン対エンジンゲームによるものです。しかし、これが真実なら、エンジンの評価が人間のeloスケールと比較して正確であるとは期待できません。エンジンの定格が正確であることを確認する方法はありますか？

engines

— コグニスマンティス
ソース

信頼できる人間を取得できたら、弱いコンピュータと対戦し、コンピュータのeloを「調整」します。その後、そのエンジンと他のエンジンを300ポイント高い位置で調整して、そのような階段を上ることができます。300 eloは毎回それを統計的に簡単にするためにポイントします（すべてが勝つわけではないので、どのくらいポイントが良いかをどのようにして知ることができるのでしょう）少なくとも強力なエンジンのeloを推定することは可能だと思います。

— Santropedro 2017年

コンピューターのチェスエンジンの評価は、FIDE評価リストとは関係ありません。

たとえば、MicroMaxエンジンはCCRLで約1950年の評価を持っています。

http://www.computerchess.org.uk/ccrl/4040/

このエンジン用のiOSアプリ（ChessMini）を配布しています。私はアプリの説明ページに書きました：

このエンジンの評価は、コンピューターチェスの評価リストでElo 2000であり、人間のチェスプレーヤーの70％よりも強力です。

これは、CCRLチェスレーティングがFIDEレーティングリストに近い場合にのみ当てはまります。

残念ながら、FIDEの評価が1900をはるかに下回っているにもかかわらず、ユーザーがアプリを説得力のある方法で打ち負かしたとの苦情をいくつかのユーザーから受け取っています。FIDEスケールでの「本当の」評価は1300〜1400だと思います。

人間の評価リストを忘れて、相対ランキングを見てください。

サンプルサイズは処理能力によってのみ制限されるため、コンピューターチェスの評価は非常に正確です（ただし、FIDEとは関係ありません）。エンジントーナメントを開始し、コンピューターを実行したまま、ベッドに移動します... TCECのような24時間のチェスです。あなたはあなたのコンピュータが許す限り多くのエンジンマッチをプレイします。

コンピュータエンジンは、他のエンジンをプレイすることで評価されます。人間の介入なし。グランドマスターはいない。ラップトップを持っていれば誰でもそれができます：

ArenaまたはCutechessをダウンロード
お気に入りのエンジンをダウンロード
エンジントーナメントを開始する

それだけです、とても簡単です！エンジンの推定評価を取得します。

— SmallChess
ソース

それでも、2つのリストの間にはおおよその関係があるはずです。（人間とコンピュータの間で行われるいくつかのゲームとのそのような関係を見つけることは困難ですが、関係があるはずです。）

— TMM

@TMMたぶん。存在し、それが統計的に証明できる場合（相関など）、答えを試してください。

— SmallChess 2017年

あなたの答えは興味深い逸話を提供し、その点で価値がありますが、OPが提起する特定の問題では信頼できるようには見えません。あなたの答えはあなたの答えなので、あなたが望むだけでなければそれを変更すべきだとは思いません。それでも、「あなたの質問への答えはわかりませんが、ここに明快な逸話があります」と答えが始まっていれば、もっと正確だったと思います。したがって、私の見解では、質問はまだ開かれており、適切な回答を求めています。

— THB