平均対ギャンブラーの誤acyへの回帰


29

一方で、平均への回帰があり、他方でギャンブラーの誤acyがあります。

ギャンブラーの誤acyは、Miller and Sanjurjo(2019)によって定義されています。「ランダムシーケンスは反転の系統的傾向がある、つまり、同様の結果のストリークは継続するよりも終了する可能性が高いという誤った信念」。連続した時間は、次の試験で不釣り合いに尾を引く可能性が高いと考えられます。

私は前回のゲームで良好なパフォーマンスを達成しましたが、平均への回帰によると、おそらく次のゲームではパフォーマンスが低下するでしょう。

しかし、ギャンブラーの誤acyによると、次の2つの確率を考慮します。

  1. 20頭の確率、1尾= 0.520×0.5=0.521
  2. 20頭の確率、その後1頭= 0.520×0.5=0.521

その後...

簡単な例を考えてみましょう。生徒のクラスは、科目で100項目の正誤テストを行います。すべての生徒がすべての質問をランダムに選択するとします。次に、各学生のスコアは、平均50の期待値を持つ、独立した同じ分布のランダム変数のセットの1つを実現します。

当然のことながら、一部の学生は50を大幅に上回り、一部の学生は偶然50を大幅に下回ります。学生の上位10%のみを取得し、2番目のテストを行って、すべてのアイテムで再びランダムに選択すると、平均スコアは再び50に近くなると予想されます。

したがって、これらの学生の平均は、元のテストを受けたすべての学生の平均にまで「回帰」します。学生が元のテストで得点したものに関係なく、2番目のテストで得点の最高の予測は50です。

特別に10%の学生のトップスコアのみを取得し、すべてのアイテムで再びランダムに選択する2回目のテストを行うと、平均スコアは再び50に近くなります。

ギャンブラーの誤acyによると、得点の確率は同じで、必ずしも50に近いとは限らないと思われますか?

Miller、JB、およびSanjurjo、A.(2019)。サンプルサイズを無視した場合の経験によるギャンブラーの誤Fallの確認方法


5
ギャンブラーの誤acyが、計算する2つの確率とどのように関連しているかはわかりません。この誤解を理解していることをより正確に説明していただけますか?
whuber

あなたのゲームは、ヘッドの最も長い実行シーケンスを持っていますか?
AdamO

1
これについての説明が本当に欲しいです。これまでの答えは、私にとってはまだ解決していないようです。平均への回帰により、独立したイベントが依存するように見えます。平均値への回帰は、たった1つの観測に使用することはできず、平均値がある場合にのみ適用されます。
icc97

回答:


28

この混乱は、「平均への回帰」という概念が本当に過去とは関係がないと考えることで解決できると思います。実験の反復ごとに平均結果を期待するのは、単なるトートロジーの観察です。したがって、以前に平均以上の結果があった場合、より悪い結果を期待するか、平均以下の結果があった場合、より良い結果を期待します。重要な点は、ギャンブラーの誤acyのように、期待自体が以前の履歴に依存しないことです。


まさに。このQの文脈で、頭が「良い結果」と解釈できる場合、OPの例では、一連の良い結果の後に悪い結果が続き、悪い結果の列の後に良い結果が続く可能性があります。 。
アメーバは、モニカーを復活させる

5
あなたは自分自身に矛盾しているようです。あなたは状態the expectation itself does not depend on any previous historyif we previously had an above average outcome then we expect a worse result。両方の場所でexpectという単語を使用し、両方の場所で過去/過去の履歴について話します。
エリック

6
矛盾はありません。結果は実際には互いに依存しているため、悪い結果を期待していません。期待以上の結果が見られたため、悪い結果を期待しています。期待自体は一定であり、以前の結果を見た結果として変化することはありません。
dsaxton

@Erik言い直しが役立つかもしれませんが、注意すべきポイントは2つの側面を区別する方法です。1つは、平均的な結果を期待している、またはむしろそれが最も可能性が高いと考えていることです。実際の結果と比較する場合、その結果が私たちの期待値と比較してどれだけ良いか悪いかに応じて、その期待は比較的良いか悪いかもしれません。将来についての情報は得られません!実際の結果を平均値と比較しているだけです(このコメントは冗長になりましたが、残して
おき

9
あなたの答えは、そもそも質問を促したあいまいさに苦しんでいるからです。つまり、平均以上の結果の後の「悪い」結果とは何ですか?OPはそれを「平均より悪い」と解釈しています(世界全体の誤りのために直感的に正しいと感じる解釈)が、平均への回帰は、「歴史よりも悪い」ことを意味します。その混乱の原因を明確にすることなく、あなたの(正しい)答えは、すでに正しい答えを知っている人にしか理解できません。何らかの形で編集すると、私の賛成票がもらえます。
-rumtscho

17

理性的な人として(そして公正なコインを仮定して)そのような立場にいることに気付いた場合、あなたの最善の策はただ推測することです。あなたは迷信ギャンブラーような位置に自分自身を見つけるとしたら、あなたの最善の策は、前のイベントを見ても、過去についてのあなたの推論を正当化しようとする-例えば、「うわー、頭は熱く、アップアンティための時間!」または「別のヘッドを見る方法はありません。そのようなストリークの確率は非常に低いです!」

ギャンブラーの誤acyは 、20個のコインのすべての特定のストリングがめちゃくちゃに私たちを投げる可能性が非常に低いことを認識していません -たとえば、10の頭と10の尾を反転することはほとんどありません。 。HHTHHTTTHT ..を反転することは非常にまれです。なぜなら、どの文字列でも、多くの異なる結果からそれを発生させる方法は1つしかないからです。したがって、これらのいずれかを「可能性が高い」または「可能性が低い」と混同することは誤解です。

平均への回帰は、長期的には観測値が有限の期待値に収束するという正しい根拠に基づいています。たとえば、20回のコイン投げのうち10回が良いと思うのは、それを達成する方法はたくさんあるからです。20分の15のベットは、その最終的なカウントを達成するストリングがはるかに少ないため、実質的に発生する可能性は低くなります。座って十分な長さのコインを投げると、最終的には約50/50の結果になることに注意してください。その中のイベント。それが、これら2つの概念の違いの中核です。

TL; DR:平均への回帰は、時間の経過とともに、実験で予想される結果を反映した分布になることを意味します。ギャンブラーの誤acyは(間違って)コインの個々のフリップは以前の結果に関する記憶を持っていると言い、それは次の独立した結果に影響を与えるはずです。


1
ギャンブラーの誤fallは間違った概念ですか?その要点を理解できませんでした。ごめんなさい
ルイスP.

6
ギャンブラーの誤acyは、まあ、誤。です。それは間違っています、それは悪い推論です。平均への回帰は、純粋な統計ですが、:)
デレクジャンニ

1
Regression to the mean is the rightly-founded belief that in the long run, your observations should converge to a finite expected value-それ「ギャンブラーの
誤acy

2
@Izkataそうではありません。平均値への回帰は、試行回数が多い場合、両側の縞模様はおおよそ均一になるはずであり、試行回数が多いほど真の平均値に近づくことを示しています。100頭のストリークを得るのに十分なフリップをした場合、おそらく分布のどこかでバランスを取るために尾のストリークもあります。これは、頭と尾のストリークが同様に発生する可能性があるためです。重要なのは、平均値への回帰は、特定のデータについては仮定せず、サンプルサイズが増加するときの集計値についてのみです。
イーサン

1
@Izkata Gamblerの誤acyは、特定の結果で何が起こるかについて主張しています。平均への回帰は、多くの結果から予想されることについて一般的な声明を出します。
デレクジャンニ

5

平均値への回帰は、外れ値を観測するための代償的なメカニズムではないことを常に覚えています。

顕著なギャンブルの実行とその後の50-50の間に因果関係はありません。分布からサンプリングしているとき、平均値に近い値が表示される可能性が最も高いことを覚えておくと便利です(チェビシェフの不等式がここで言っていることを考えてください)。


2
イェイ・チェビシェフ!素晴らしい点!
デレクジャンニ

4

簡単な例を示します。合計200枚のコインを投げることにしました。これまでに100個を投げ、あなたは非常に幸運に恵まれました:100%が頭に浮かびました(信じられないほど、わかりましたが、単純にしておきましょう)。

最初の100回のトスで100頭を条件として、ゲームの終了時に合計150頭になると予想されます。ギャンブラーの誤acyの極端な例は、最初の100回のトスで100を獲得した後でも、合計で100ヘッド(つまり、ゲームを開始する前の期待値)しか期待できないと考えることです。ギャンブラーは、次の100回のトスはテールでなければならないと考えています。(このコンテキストでの)平均へ回帰の例は、ゲームを終了すると、100%のヘッドレートが150/200 = 75%(つまり、50%の平均に向かって)に低下すると予想されることです。


1
@whuberこれは古典的な父親と息子の身長の例ではありませんが、ウィキペディアの定義を満たすと主張します:「平均への回帰(または平均への回帰)は、変数最初の測定で極端な場合、2回目の測定で平均に近づく傾向があります」
エイドリアン

3
ウィキペディアに注意してください:入門的な言語は、単にヒューリスティックなアイデアを提供することを目的としていますが、定義ではありません。実際には、引用は定義ではなく(「極端な」という意味を述べていないため)、ほとんどの解釈では正しくありません。例えば、任意の連続確率変数のために正確に存在する二つの独立した試験の第二である可能性をさらに平均値から最初のものよりは。1/2
whuber

1
ギャンブラーの誤Fallと平均への回帰の明確な説明を提供することは、例を提供するよりも重要だと思います。例だけが与えられているとき、それらがどのように理解されるべきか、またはそれらがこれら2つの主題にどのように関係するかは明確ではありません。
whuber

1
OPと同様に考える人として、あなたの2番目の段落は、違いが何であるかを明確に説明するすべての答えの唯一の例です。今ではもっと理にかなっています。
イズカタ

1
@whuberそれはまさに他の答えのほとんどがしていることであり、彼らは私のためにそれをまったくクリアしていませんでした。
イズカタ

2

私は間違っている可能性がありますが、私は常に違いが独立の仮定にあると考えてきました。

ギャンブラーの誤acyでは、問題は独立の誤解です。確かにいくつかの大きなN個のコイントスであなたはおよそ50-50のスプリットになりますが、もし偶然ではないなら、次のTトスがオッズを均等にするのに役立つという考えは間違っています。以前。

平均への回帰は、私がそれを使用するのを見れば、ドローが以前のドローまたは以前に計算された平均/値に依存しているという考えです。たとえば、NBAの射撃パーセンテージを使用します。プレーヤーAがキャリア中にショットの平均40%を作成し、最初の5ゲームで70%を撮影して新しい年を開始した場合、キャリアAの平均に回帰すると考えるのが妥当です。ホット/コールドストリーク、チームメイトプレイ、自信、そして彼がその年に70%のシュートを維持した場合、単純に不可能な物理的偉業である複数のレコードを完全に消滅させるという単純な事実(プロバスケットボール選手の現在のパフォーマンス能力の下で)。あなたがより多くのゲームをプレイするにつれて、あなたの射撃の割合はおそらくあなたのキャリア平均に近く低下します。


平均値への回帰の説明は、収縮推定量のように聞こえます。「回帰」が実際に意味するものの具体的な定義を教えていただけますか?
whuber

ウィキペディアの「学生のスコアは、潜在能力と偶然によって決定されるため、この現象が発生する」という考えに従いました。私の理解では、ある程度の確率がありますが、結果は潜在的な能力に左右されます。
マルセナウ

2
その説明をありがとう。自分のキャリアが進むにつれて、平均がキャリア平均に近づくという考えに、そのアイデアがどのように適用されるかは明らかではありません。それは、トートロジーまたは多数の法則の何らかのバージョンのように聞こえます。実際、ギャンブラーの誤Fallそのもののようにひどく聞こえます!
whuber

1
または、あなたのキャリア平均はあなたの新しい能力を満たすために上昇します。:)水を改善可能なスキルで濁らせるのは間違いだと思います。
エリック

1
「独立の誤解」-これが重要なポイントのようです。平均への回帰により、独立したイベントが依存するように見えます。
icc97

2

重要なのは、次のイベントは前のイベントに依存しないため、次のイベント(ギャンブラーの誤fall)に役立つ情報がないことです。一連の試行がどのように進むかについて、合理的な推測を行うことができます。この合理的な推測は、平均値、つまり予想平均結果です。そのため、平均/傾向の平均トレンドの偏差を時間/試行にわたって見ると、平均への回帰が見られます。

あなたが見ることができるように平均に回帰行動の観察されたシリーズです、それは予測因子ではありません。より多くの試行が行われると、物事は正規分布/ガウス分布により近くなります。これは、次の結果がどのようなものになるかについて、仮定や推測を行っていないことを意味します。多数法則を使用する現在物事が一方向にトレンドになっている場合でも、時間の経過とともに物事のバランスが取れることを理論化できます。それらがバランスをとるとき、結果セットは平均に回帰しました。ここで重要なのは、将来の試験が過去の結果に依存していると言っているわけではないことです。データのバランスの変化を観察しているだけです。

ギャンブラーの誤謬私が理解としては、それはそれの目標でより迅速であり、将来の事象の予測に焦点を当てています。これは、ギャンブラーが望むものを追跡します。通常、偶然のゲームは長期にわたってギャンブラーに対して傾いているため、ギャンブラーはこの知識を活用したいため、次のトライアルがどうなるかを知りたがっています。これにより、ギャンブラーは次の試行が前の試行に依存していると誤って仮定します。これにより、次の中立的な選択が可能になります。

最後の5回はルーレットホイールが黒に着地したため、次回は赤に大きく賭けます。

または選択は利己的である場合もあります:

私は最後の5ハンドでフルハウスになったので、勝ち続けて負けないので、私は大きく賭けます。


ご覧のとおり、重要な違いはほとんどありません。

  1. 平均への回帰は、ギャンブラーの誤acyのように独立した試験が依存していると仮定していません。

  2. 平均への回帰は、ギャンブラーの誤acyが次の試行に関係する大量のデータ/試行に適用されます。

  3. 平均への回帰は、すでに起こったことを説明します。ギャンブラーの誤acyは、予想される平均と過去の結果に基づいて未来を予測しようとします。


1
実際、平均値への回帰は、大きな数の法則と関係があるとは思いませんし、最初の文であなたが言うことを意味するとは思いません。
アメーバは、モニカの復活を

@amoebaですので、コインを100回フリップし、トライアルに20回フリップする場合、20個のヘッドがあります。トライアルの終わりには、55人のヘッドがいます。これは「平均への回帰」の一例だと言いたい。それは垂れ下がったところから始まりましたが、時間が経つと正常化しました。多数ビットの法則は、十分な試行にわたって物事が平均化されるという考え方を表現するもう1つの方法でした。
エリック

1
私はあなたのキーでそれらのテーマの要点をつかみ始めていると思います、エリック。綺麗な!:) xxx
ルイスP.

2

再試験不正行為者の得点が高い成績の生徒はいますか?

質問は、6回の回答の最後から大幅に編集されました。

100

それとも、ルーレットホイールから離れておくべきでしょうか?

50%50%10050

60%2.8%30006085

8560%50%10060%2.8%2852.8%8560%

50%1005050

ラッキーコインとラッキーフリップ

現実はもう少し複雑です。モデルを更新しましょう。まず、コインをめくっているだけなら実際の答えはどうでもいいので、頭の数でスコアを付けましょう。これまでのところ、モデルは同等です。今、仮定しましょう100055%G100045%B1000F)そしてこれらをランダムに配布します。これは、テストの例でより高い能力と低い能力/知識を仮定することに似ていますが、無生物について正しく推論する方が簡単です。

(551000+451000+501000)/3000=5060%18.3%0.2%2.8%60%7.1%60%21

2160%50%10086%=18.3%/(18.3%+0.2%+2.8%)1%=0.2%/(18.3%+0.2%+2.8%) had a bad coin, and 13% had a fair coin. The expected value of scores on retest is therefore 86%55+1%45+13%50=54.25 out of 100. This is lower than actual scores of the first round, at least 60, but higher than the expected value of scores before the first round, 50.

So even when some coins are better than others, randomness in the coin flips means that selecting the top performers from a test will still exhibit some regression to the mean in a retest. In this modified model, hot-handedness is no longer an outright fallacy -- scoring better in the first round does mean a higher probability of having a good coin! However, gambler's fallacy is still a fallacy -- those who experienced good luck cannot be expected to be compensated with bad luck on retest.


I've just got an idea. I'm gonna simulate that model and see how it works.
Luis P.

1

They are saying the same thing. You were mostly confused because no single experiment in the coin flip example has extreme result (H/T 50/50). Change it to "flipping ten fair coins at the same time in every experiment", and gamblers want to get all of them right. Then an extreme measurement would be that you happen to see all of them are heads.

Gambler fallacy: Treat each gamble outcome (coin flipping result) as IID. If you already know the distribution those IID shares, then the next prediction should come directly from the known distribution and has nothing to do with historical (or future) results (aka other IID).

Regression to the mean: Treat each test outcome as IID (since the student is assumed to be guessing randomly and have no real skill). If you already know the distribution those IID shares, then the next prediction comes directly from the known distribution and has nothing to do with historical (or future) results (aka other IID) (exactly as before up to here). But, by CLT, if you observed extreme values in one measurement (e.g by chance you were only sampling the top 10% students from the first test), you should know the result from your next observation/measurement will still be generated from the known distribution (and thus more likely to be closer to the mean than staying at the extreme).

So fundamentally, they both say the next measurement will come from the distribution instead of past results.


This is not a correct citation of the central limit theorem. It is merely a statement of what an independent event is.
AdamO

0

Let X and Y be two i.i.d. uniform random variables on [0,1]. Suppose we observe them one after another.

Gambler's Fallacy: P( Y | X ) != P( Y ) This is, of course, nonsense because X and Y are independent.

Regression to the mean: P( Y < X | X = 1) != P( Y < X ) This is true: LHS is 1, LHS < 1


0

あなたの答えに感謝します。平均への回帰とギャンブラーの誤acyの違いを理解できたと思います。さらに、データベースを構築して、「実際の」ケースで説明できるようにしました。

私はこの状況を構築しました:1000人の生徒を集め、質問にランダムに答えるテストをさせました。

テストスコアの範囲は01〜05です。質問にランダムに回答しているため、各スコアは20%の確率で達成されます。したがって、最初のテストでは、スコア05の学生の数は200に近い値になるはずです。

(1.1) 1000020

(1.2) 200

スコアが05の196人の学生がいて、予想される200人の学生に非常に近い。

だから私はそれらの196人の生徒にテストを繰り返してもらい、39人の生徒が05の得点を与えられた。

(2.1) 196020

(2.2) 39

まあ、結果によると、私は42人の学生を得ましたが、これは予想内です。

スコア05を獲得した人のために、私は彼らにテストなどを繰り返すようにさせました...

したがって、予想される数は次のとおりです。

RETEST 03の予定

(3.1) 42020

(3.2) 8

(3.3)結果(8)

RETEST 04の予定

(4.1) 8020

(4.2) 12

(4.3)結果(2)

RETEST 05の予定

(4.1) 2020

(4.2) 01

(4.3)結果(0)

スコア05を4回取得する学生を期待している場合、次の確率に直面します。 0204つまり、1000人あたり1,2人の学生。ただし、スコア05を5回取得する学生を想定している場合、すべてのテストでスコア05の学生1,12人を取得するには、少なくとも3.500サンプルが必要です。

(5.1。) 0205=000032

(5.2。) 0000323500=1.2

したがって、すべての05テストで1人の学生がスコア05を獲得する確率は、最後のスコアとは何の関係もありません。つまり、各テストの確率を単独で計算してはいけません。1つのイベントのような05テストを探して、そのイベントの確率を計算する必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.