良いパフォーマンスが縞模様であるかどうかはどうやってわかりますか？

10

ルービックキューブを趣味で解決します。いくつかのソフトウェアを使用してキューブを解くのにかかった時間を記録したので、何千もの解法からのデータが得られました。データは基本的に、各順次解決にかかった時間を表す数値の長いリストです（たとえば、22.11、20.66、21.00、18.74など）。

立方体を解くのにかかる時間は自然に解法ごとに多少異なりますので、良い解法と悪い解法があります。

「熱くなる」かどうか、良い解決策が縞になるかどうか知りたい。たとえば、いくつかの連続した良い解決があった場合、次の解決が良い可能性が高いですか？

どのような分析が適切でしょうか？私はいくつかの特定のことを考えることができます。たとえば、解決をマルコフプロセスとして扱い、1つの解決が次の予測をどの程度うまく予測しているか、ランダムデータと比較して、最後の中央値より下の連続した解決の最長のストリークの長さを確認します。 100は、ランダムデータなどで予想されるものと比較しています。これらのテストがどの程度洞察力があるかはわかりません。また、この種の問題に対する十分に開発されたアプローチがあるかどうかはわかりません。

probability

— マーク・アイヘンラウブ
ソース

8

ワルド・ウォルフォウィッツは、テスト実行「実行」は、あなたが「ストリーク」と呼んだものである可能候補、のようです。それは二値データを必要とするので、提案された中央値の時間のように、いくつかのしきい値に従って、各解決を「悪い」対「良い」としてラベル付けする必要があります。帰無仮説は、「良い」と「悪い」はランダムに交互に解決するというものです。あなたの直感に対応する一方的な対立仮説は、「良い」は長い縞の塊を一緒に解決するということであり、ランダムデータで予想されるよりも実行が少ないことを意味します。テスト統計は実行の数です。R：

> N      <- 200                          # number of solves
> DV     <- round(runif(N, 15, 30), 1)   # simulate some uniform data
> thresh <- median(DV)                   # threshold for binary classification

# do the binary classification
> DVfac <- cut(DV, breaks=c(-Inf, thresh, Inf), labels=c("good", "bad"))
> Nj    <- table(DVfac)                  # number of "good" and "bad" solves
> n1    <- Nj[1]                         # number of "good" solves
> n2    <- Nj[2]                         # number of "bad" solves
> (runs <- rle(as.character(DVfac)))     # analysis of runs
Run Length Encoding
lengths: int [1:92] 2 1 2 4 1 4 3 4 2 5 ...
values : chr [1:92] "bad" "good" "bad" "good" "bad" "good" "bad" ...

> (nRuns <- length(runs$lengths))        # test statistic: observed number of runs
[1] 92

# theoretical maximum of runs for given n1, n2
> (rMax <- ifelse(n1 == n2, N, 2*min(n1, n2) + 1))
199

観測数が少ない場合は、帰無仮説の下で実行回数ごとに正確な確率を計算できます。それ以外の場合、「実行数」の分布は標準正規分布で近似できます。

> (muR  <- 1 + ((2*n1*n2) / N))                     # expected value
100.99 

> varR  <- (2*n1*n2*(2*n1*n2 - N)) / (N^2 * (N-1))  # theoretical variance
> rZ    <- (nRuns-muR) / sqrt(varR)                 # z-score
> (pVal <- pnorm(rZ, mean=0, sd=1))                 # one-sided p-value
0.1012055

p値は、「良い」解が縞になる片側対立仮説に対するものです。

— カラカル
ソース

3

すばらしい答えです。ただし、連続変数をバイナリ変数に変換するのは気が進まないでしょう。多くの意味のある可変性が失われます。

— Jeromy Anglim 2011年

@jeromy-これは一般的に良い点ですが、この特定の質問ではビニングは多くの情報を捨てません-特に「良い」と「悪い」は質問の二分法としてのみ定義され、連続体。

— 確率論的

@probabilityislogicソリューションの時間があるしきい値のどちら側にあるかに基づいて、@ markがソリューション時間を「良好」または「不良」として操作可能にした可能性があることを理解しています。ただし、しきい値がどこにあっても、確かにそれは少し恣意的です。しきい値が5分であれば、確かに5分1秒は4分59秒の「良さ」と大差ありません。「良い」と「悪い」は、継続的な完了時間に関してファジーなカテゴリーだと思います。

— Jeromy Anglim 2011年

しかし、「良い」と「悪い」の定義は任意です。これらの単語の相対的な性質のためです。「データ」にあいまいさを解決させても、あいまいさを自分で解決しても、多かれ少なかれあいまいさはありません。そして、それはそのような鋭い区別が正当化されるかもしれない-あなたが競争の決勝戦に参加するために5分未満を必要とするならば。私は確かに裁判官は一種の引数に振り回されることはありません「しかし、それは予選の時間外にのみ2秒であった」だ

— probabilityislogic

5

いくつかの考え：

時間の分布をプロットします。私の推測では、それらは積極的にゆがめられ、その結果、いくつかの解決時間は本当に遅くなります。その場合、ログまたはソリューション時間の他の変換を検討する必要があります。
x軸に試行の散布図を作成し、解時間（またはy軸に解時間の対数）を作成します。これにより、データを直感的に理解できるようになります。また、「ホットストリーク」以外の他の種類のトレンドを明らかにする場合もあります。
時間の経過とともに学習効果があるかどうかを検討します。ほとんどのパズルでは、練習でより速くなります。プロットは、これが事実であるかどうかを明らかにするのに役立ちます。このような効果は、「ホットストリーク」効果とは異なります。初めて学習しているとき、遅い試行は他の遅い試行と共起し、経験を重ねるにつれて、より速い試行はより速い試行と共起するので、それは試行間の相関につながります。
「ホットストリーク」の概念的な定義を検討してください。たとえば、それは時間的に近い、または注文の近さについての試験にのみ適用されますか？火曜日にキューブをすばやく解決してから休憩し、次の金曜日にすばやく解決したとします。これはホットストリークですか、それとも同じ日に行う場合にのみカウントされますか？
ホットストリーク効果とは異なる可能性のある他の効果はありますか？たとえば、パズルを解く時間（例：疲労）、実際に一生懸命やっている度合いなど。等
代替の系統的効果を理解したら、それらをできるだけ多く含むモデルを開発できます。y軸に残差を、x軸に試行をプロットできます。次に、モデルの残差に自己相関があるかどうかを確認できます。この自己相関は、ホットストリークの証拠を提供します。ただし、別の解釈では、除外していない他のいくつかの体系的な影響があります。

— ジェロミー・アングリム
ソース

体系的な部分の+1。この場合は、パフォーマンスの変動を最もよく説明していると思います。

— mpiktas 2011年

2

研究者がこの質問をどのように調査したかを見たいと思うかもしれません。古典は、Gilovich、T.、Vallone、R.＆Tversky、A.、バスケットボールの熱い手：ランダムなシーケンスの誤解についてです。Cognitive Psychology 17、295-314（1985）。

— dmk38

2

プロセスのコレログラムを計算します。プロセスがガウシアンである場合（サンプルの外観により）、下限/上限（B）を確立し、特定のラグでの相関が有意であるかどうかを確認できます。ラグ1の正の自己相関は、「運の連続」の存在を示します。

2

正の自己相関は、学習プロセスなどの他の系統的な影響からも生じる可能性があります。自己相関を「ホットストリーク」の証拠として解釈する前に、そのような影響を取り除くことが重要だと思います。

— Jeromy Anglim 2011年