コンピューターの評価:それらはどの程度信頼できますか?


14

フリッツ12とRybkaは、私の友人にこのエンドゲームのポジションで白の+3の評価を与えました。

動く白

引き分けになりました。しかし、コンピューターからの+3は、完璧なプレーで確実な勝利を意味すると聞いています。聞き間違えましたか?コンピュータ評価は一般的にどのように解釈されるべきですか?<.5の開始の利点はどういう意味ですか?


3
「保証された勝利」コメントに挑戦します。評価番号はヒューリスティックな指標であり、基本的にはコンピューターが位置に対して持つ「感覚」です。エンドゲームは「驚くべき」結果をもたらす可能性があり、コンピューターがすべての可能なパターンを検出するようにプログラムされていない場合(または、すべての方法で計算できる場合)、一部を見逃します。別の見方をすると、+ 3が本当に保証されている場合、+ 3ではなく、+∞になります。
ダニエルB

記録のために、私はこれをLichessの7ピースのテーブルベースで確認しましたが、これはまさに引き分けです。
フィッシュマスター

回答:


8

ここにはいくつかのことがあります。

まず、各プログラムには位置を評価する独自の方法があるため、スコアを直接比較することはできません。たとえば、最近、Rybkaに対してStockFishを実行していましたが、StockfishのスコアはRybkaのスコアの約2倍でした。これには驚きましたが、スコア1が常に「1ポーン」を意味するとは限りません。私たちが見なければならないのは、スコアの変化です。昨日(偶然にも他の質問の1つに答えながら)私が見たもう1つの好奇心は、Stockfishの評価アルゴリズムが奇数をあまり好まないということでした。実際、ほとんどのスコアは0.04の倍数でした。値の大きさはarbitrary意的であるため、マシンが合致を検出したと主張しない限り、特定の値が「確実な勝利」を意味するとは思いません。

第二に、エンドゲームの解決には多くの検索深度が必要なため、エンドゲームテーブルベースが作成されました。トーナメントの速度でプレイしているコンピューターはうまく機能しません。私は数日前に別のゲームに取り組んでいて、このサイトで一方が有利だと発表しました。エドはテーブルベースを使用して、その位置に謎が残っていないことを示しました-それは理論的に描かれました。もちろん、完全に描かれたプレイとドローの間には大きな違いがあります。プレイヤーは正しい動きを見つけなければなりません。


ゲームの初期段階で白に一般的に与えられる小さな値は、基本的に白がより価値のある不動産を要求できることを意味します。たとえば、移動1で、ホワイトはe4を要求し、e5およびf5を攻撃できます。黒は対抗できます。しかし、その後、ホワイトはNc3をプレイし、a4、b5、d5、およびe4を攻撃/強化できます。しかし、黒は反論することができます。だから、それは非常に少ないことを意味します。


最後に、件名の質問に答えるために、評価は非常に信頼できます。評価は厳しい事実と印象的な検索の深さに基づいているためです。もちろん、マシンは絶対確実ではありません。しかし、bプレーヤーは、Stockfish(またはRybka)が控えめなハードウェアでGMの強さでプレイすることを覚えておく必要があります。最も一般的なハードウェアでは、彼らはFIDE 3200で評価を見積もります。これは非常に高いため、最高の人間だけが負けない可能性がわずかにあります。

これが何を意味するかを検討してください。I(USCF 1650っぽい)持っていない何も持っていません(たとえば2050 USCF)の人相手にチャンスを何も持っていない人に対してチャンスを(たとえば、2450 USCF)何も持っている人に対してチャンスを(たとえば、2850 USCF)スライバーを一流の商業プログラム(FIDE 3200)相手にチャンス。

したがって、Stockfishが1つの動きが別の動きよりも優れていると言ったとき、私は通常それを額面通りに受け取ります。終盤のテーブルベースを接続すると、このことが30代でmate-inを発表し始めます(笑)。


1
とてもいい反応。私はいつも、1という評価は1ポーンの価値のある素材を意味すると考えていました。また、チェステンポは、その問題で最も良い動きは少なくとも2ポーン相当のマテリアルを獲得するものであると言うので、ゲームのステージに関係なく、+ 2以上のエンジン評価が勝つと考えました。しかし、私は以前、干し魚の分析に欠陥があることを発見し、エンドゲームを適切に評価できないことを見てきました。そのメモで、エンドゲームのテーブルベースをどこで見つけることができるか知っていますか?
チャビーカンターセット

ここでエドが掲載オンライン6人のtablebaseです:k4it.de/index.php?topic=egtb&lang=en
トニー・エニス

「マシンが合致を見つけたと主張しない限り、特定の値は「確実な勝利」を意味しないと思います」の
フェリー

14

エンジンごとに、数値評価の「スケール」が異なります。例えば、多くのプレイが残っている典型的なミドルゲームのポジションで、Houdiniが+2.00以上と言った場合、ホワイトが勝つ利点を持っている可能性が非常に高いです(ただし、ここでも理由のために資格を含めています)。しかし、考慮してください。Houdiniのソースコードを変更し、評価に関係するすべての数値の絶対値を2倍にすることができます。同一のプレイを生み出す同一の強さのエンジンを取得しますが、+ 4.00は+2.00の意味を意味します。これは、一般的に勝っている利点を示すエンジン全体で均一な数値しきい値期待すべきではないことを示しています。

ただし、これ以上に、位置の数値エンジン評価(避けられない合致の完全な宣言とは対照的に)、単一の固定エンジンであっても「勝ったゲーム」に厳密に変換されることは決してないことを理解することが重要です。重要な点は、数値評価はチェスの広い意味で明確な「意味」を持たず、むしろ各点で選択する動きに影響を与えることによりエンジンを一般的に望ましい結果に機械的に導くために使用される感覚的な思考の代わりにすぎないことですゲーム中; この観点から、エンジンのプレイにとって最終的に最も重要なのは、絶対値に関するものではなく、潜在的な動きに割り当てられた評価の違いだけです関与した。数値はエンジン自体にとって有用です。エンジンは、ある動きを別の動きに決定するために具体的なものを必要としますが、人間は「+ Xのような思考に関連する大きさをもっと早く読みすぎてはいけません」勝利。」

特に、ミドルゲームではなくエンドゲームに近づくにつれて、特定のしきい値が勝利に十分であるという経験則(上記のミドルゲームのHoudiniの+2.00など)を使用できなくなります。これの主な理由の1つは、エンジンが要塞を認識するのが難しいことです。ここでは、豊富な追加の素材ではまだ勝つには十分ではありません。たとえば、Stockfishにこのポジションをフィードすると、

NN-NN

数分後、約+7.00の評価が得られると考えました。そして、通常の立場では、Stockfishが言うには、ほぼ確実にあなたの手に勝ちます。それでも、これはデッドドローであり、黒はf6とh6の間でルークをシャッフルできるという事実が認識されると、人間はこれを簡単に見ることができます。したがって、(1)h-ポーンは役に立たず、(2)白王は白い女王の攻撃を助けることはできません。最終的に、Stockfishはここで引き分けを認識します。たとえば、50の動きに突き当たるか、最終的にさまざまな動きがなくなって試行され、最終的に繰り返しを避けることはできませんが、それらのイベントは検索深度ラインをはるかに下回っています。

あなたがリンクした先の質問からのエンドゲームの位置は、この種の要塞に似ています。ホワイトが持っている余分な接続された渡されたポーンには、すべてがありますが、最終的にその位置で勝つには十分ではありません。エンジンがテーブルベースに含まれる情報を表示するのに十分な時間計算する場合、その評価は0になりますが、その間、その評価アルゴリズムは、そのために+を与えること以上に良いことはありません追加の資料(まだ知らないことは意味がありません)。


以下のための+1 「これ以上は、しかし、それは位置の数値エンジンの評価は(必然的メイトのあからさまな宣言とは反対に)決して厳密ウォンの試合に変換しないことを理解することが重要だ」
ferit

8

この写真は状況をよく説明していると思います。400kのゲームから作成され、プレーンピースの素材のみを考慮しています。

勝率/ポーンアドバンテージ

出典:Pawn Advantage、Win Percentage、およびELO


1
素晴らしい貢献!+1
フェリット

@Thomas Ahle:グラフは興味深いです。しかし、元の記事はもう利用できません。ウィキスペースのリンクは悲しいことに下がっています。W = Win Probabilityの正確な意味を覚えていますか?引き分けを無視して勝ったのか負けたのか?それとも、引き分けを考慮した「予想スコア」でしたか?
ディードルシュ

@Diedrschリンクを更新しました
Thomas
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.