統計的ランダム性に関するいくつかの質問


15

ウィキペディアの統計randoness

グローバルなランダム性とローカルなランダム性は異なります。特定のサブシーケンスがランダムに見えなくても、「長期的には」シーケンスは本当にランダムに見えるという考えに基づいているため、ランダム性の哲学的概念の大部分はグローバルです。たとえば、十分な長さの「真の」ランダムシーケンスでは、ゼロ以外の長いシーケンスが存在する可能性がありますが、シーケンス全体はランダムである可能性があります。局所的ランダム性とは、ランダムな分布が近似される最小のシーケンス長が存在する可能性があるという考え方を指します。同じ数字の長いストレッチは、「真の」ランダムプロセスによって生成されたものであっても、サンプルの「ローカルランダム性」を低下させます(10,000桁のシーケンスではローカルランダムである可能性があります。たとえば、すべて)。

パターンを示すシーケンスは、統計的にランダムではないことが証明されています。ラムジー理論の原理によれば、十分に大きいオブジェクトには、必ず特定のサブ構造が含まれている必要があります(「完全な無秩序は不可能」)。

太字の2つの文の意味がよくわかりません。

  1. 最初の文は、何かがより短い長さでローカルランダムではなく、より長い長さでシーケンスをローカルランダムにすることを意味しますか?

    括弧内の例はどのように機能しますか?

  2. 2番目の文は、パターンを示すシーケンスが統計的にランダムでないことを証明できないことを意味しますか?どうして?

ありがとう


1
良い質問。私はこのテキストを少し困惑させています。シーケンスがランダムであるかどうかは、それがどのように生成されるかに関係すると考えていたでしょう。結果は何ではありません。ここには言語上の問題があると思う-私にとって、ランダムとは、それがどのように生成されるかを意味する。常識のために(そして、おそらくより明確に考えていない哲学者?)、それは無秩序に見える何かについてですか?
ピーターエリス

3
@Peter、生成メカニズムのみを参照できる場合は、ランダム性を定義することさえ難しい場合があります。最終的に、ランダムシーケンスのすべての有用性は、含まれる数字にあり、それらの数字の生成方法にあるのではないため、シーケンスに関して純粋にランダム性を定義およびテストする方法が必要であると思いませんか?
whuber

1
確かに、その結​​果からランダム性をテストできることに同意します-ランダム性の妥当性のために、それを証明することを望みません。おそらく、世代に基づいた定義の哲学的課題について、さらに読んで考える必要があります。
ピーターエリス

ランダム性は単に未知の同義語だと思います。私もこの文を見つけますbizzare
確率論的

回答:


15

概念は、いくつかの実行可能コードによってきちんと説明できます。R)では、良い擬似乱数ジェネレーターを使用して、10,000個のゼロと1のシーケンスを作成します。

set.seed(17)
x <- floor(runif(10000, min=0, max=2))

これはいくつかの基本的な乱数テストに合格します。 例えば、への平均を比較するt検定のp値を有する40.09を1/240.09私たちは0と1が等しく可能性があるという仮説を受け入れることができます%を、。

これらの数値から、5081番目の値から始まる連続する値のサブシーケンスを抽出します。1000

x0 <- x[1:1000 + 5080]

これらがランダムに見える場合、同じ乱数テストにも合格する必要があります。たとえば、平均が1/2かどうかをテストしてみましょう。

> t.test(x0-1/2)

    One Sample t-test

data:  x0 - 1/2 
t = 2.6005, df = 999, p-value = 0.009445
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 0.01006167 0.07193833 
sample estimates:
mean of x 
    0.041 

低いp値(1%未満)が強く平均が有意であることを示唆している大きいより。実際、このサブシーケンスの累積合計には強い上昇傾向があります。1/2

> plot(cumsum(x0-1/2))

ランダムウォーク?

それはランダムな動作ではありません!

元のシーケンス(累積合計としてプロット)をこのサブシーケンスと比較すると、何が起こっているかがわかります。

ランダムウォーク

長いシーケンスは、実際にはランダムウォークのように動作しますが、そうすべきですが私が抽出した特定のサブシーケンスには、同じ長さのすべてのサブシーケンスの中で最も長い上向きの上昇が含まれています。「ランダムではない」動作を示すいくつかの他のサブシーケンスも抽出できたようです。たとえば、約20個が連続して表示されるを中心とするサブシーケンスなどです。9000


これらの簡単な分析が示しているように、シーケンスがランダムに見えることを「証明」することはできません私たちにできることは、シーケンスがランダムではないという証拠を提供するために、ランダムなシーケンスに期待される動作から十分に逸脱しているかどうかをテストすることです。 これは、乱数テストのバッテリーです一連の乱数です。乱数シーケンスで発生する可能性が非常に低いパターンを探します。長い間、彼らは、真にランダムな数字のシーケンスはランダムに見えないという結論を下します:私たちはそれを拒否して、他のことを試みます。

しかし、長い目で見れば、私たち全員が死んでいるのと同じように、真の乱数ジェネレーターは1000桁のあらゆる可能なシーケンスを生成し、無限に何度も繰り返します。論理的な困惑から私たちを救うのは、そのような明らかな異常が発生するまで、非常に長い時間待たなければならないということです。


ありがとう!関連する質問:いくつかの方法で生成された擬似乱数のランダム性をテストするとき、ランダム性は均一な分布を意味しますか?言い換えれば、ランダム性テストは均一な分布をテストするためだけのものですか?私は、これらのより偏った分布が直感的にランダムではないように見えるので、これを尋ねました。
26:39のすべての

@Tim:いいえ、ガウスのランダム性に関する多くの一般的なテストがあり、任意の分布のテストを構築できるはずです。
naught101

1
[0,1)

2
私はほとんど答えの上部を「見て」、「Whuber」と言うことができます:)とても素敵です!
PhD

2

この抜粋では、「ローカルランダムネス」と「グローバルランダムネス」という用語を使用して、ランダム変数の有限数のサンプルで発生する可能性のあるものと、ランダム変数の確率分布または期待値を区別します。

xi{0,1}θθlimn1ni=1nxi=θ

[0,1][a,b]0a<b1θ

ここに新しいものはありません。

n

したがって、私はこの抜粋を考えてあまりにも多くの脳細胞を燃やすことはありません。それは数学的にそれほど正確ではなく、ランダム性の性質について実際に誤解を招きます。

コメントに基づいて編集:@kjetilbhalvorsen +1を使用して、歴史的知識を得るためにコメントを追加します。ただし、これらの用語の価値は限定的であり、誤解を招くものであると考えています。あなたが説明しているテーブルは、例えばサンプルが実際の期待値から遠く離れている、あるいはありえないが確かに可能性のある繰り返し0の長いシーケンス(私のベルヌーイの例)を意味する小さなサンプルが何らかの形で展示しているという誤解を招くような含意を持っているようですランダム性が低くなります(この偽りの「ローカルランダム性」を示さないと言います)。私は、新進の統計学者にとってこれ以上誤解を招くものは考えられません!


「グローバルなランダム性」は特異なように見えますが、「ローカルなランダム性」には少なくとも20年の歴史があります。たとえばisiweb.ee.ethz.ch / papers / arch / umaure-mass-inspec-1991-1.pdfを参照してください。
whuber

nn

2
私は時々これを読んだことを覚えています:人々がシミュレーションや実験などに使用する「乱数」の表を含む本を出版したとき、これのいくつかは小さなシミュレーションでの使用に適していると表の一部をマークしていました(「ローカルランダム性」)と、より大きなシミュレーションにのみ使用する必要があるその他の部分(「グローバルランダム性」を示す)ですから、概念は価値あるものを指し示しているようです!
kjetil bハルヴォルセン

1
申し訳ありませんが、これをどこで読んだか思い出せません。しかし、それはほとんど明白です:ランダム性の定義における哲学的問題とは別に、1000個の乱数が必要な非常に小さなシミュレーションがあり、高品質のランダムジェネレーターが1000個のゼロを与える場合、¿ このような発生は「真にランダムな」シーケンスで可能であり、実際に必要であるという事実にもかかわらず、シミュレーションは台無しになります!
kjetil bハルヴォルセン

1
皆さん、ありがとう、私は恐らく私の非難に厳しすぎました。この言語を少し変更します。
クリスA.

-1

ウィキペディアの投稿の著者はランダム性を誤解していると思います。はい、ランダムではないように見えるストレッチがあるかもしれませんが、シーケンスを作成したプロセスが本当にランダムである場合、出力する必要があります。特定のシーケンスがランダムでないように見える場合、それは読者の誤った認識です(つまり、人間はパターンを見つけるように設計されています)。北斗七星やオリオンなどを夜空で見る能力は、星のパターンがランダムではないという証拠ではありません。ランダム性はしばしば非ランダムに見えることに同意します。プロセスが短いシーケンスに対して真に非ランダムなパターンを生成する場合、それはランダムなプロセスではありません。

プロセスが異なるサンプルサイズで変わるとは思わない。サンプルサイズを大きくすると、ランダムではないように見えるランダムシーケンスが表示される確率が高くなります。20のランダムな観測値にパターンが表示される可能性が10%ある場合、観測値の合計数を10000に増やすと、どこかで非ランダム性が表示される可能性が高くなります。


2
「プロセスが短いシーケンスに対して真に非ランダムなパターンを生成する場合、それはランダムなプロセスではありません」と私は恐れており、まったく間違っています。たとえば、フェアコインの100回のフリップでは、6つのヘッドまたは6つのテールが連続て観察されることが予想されます。 」「短いシーケンス」の前に「すべて」を適用するなど、より慎重に修飾する必要があるものを作成するつもりだったと思われます。
whuber

本当に?乱数発生器から尾の先頭の文字列が表示されること期待しているので、表示されても驚くことはないだろうと思っていたでしょう。なぜそれを非ランダムであると考えるのですか?100回のフリップを行う数値ジェネレーターがあり、意図的に4つ以上のヘッドまたはテールを連続して避けた場合、真にランダムなプロセスよりもランダムに見えますが、実際にはランダムではありません。ランダム性の素朴な見方は、すべてのパターンの欠如です-しかし、それは非ランダムです。
パウリトゥス

あなたのコメントは正しいですが、あなたの答えの説明は不明瞭で、この点で矛盾しています。たとえば、「短いシーケンスに対する真に非ランダムなパターン」を生成することによって意味するもの、または「非ランダム性を見る」という意味をより正確に説明することを検討してください。
whuber

矛盾はありません。ランダムジェネレータは非ランダムパターンを作成すると考えているようです。それは矛盾です。真にランダムなプロセスが非ランダムな観測値を生成すると主張しています。あなたが説明しているのは、「クラスタリング錯視」と呼ばれる原子です。これは、ランダム分布からクラスターを誤って知覚する傾向があります。私が言っているのは、プロセスがランダムでない観測を作成する場合、それはランダムではないということです。あなたは、ランダムなプロセスが非ランダムな観測値の文字列を作成することを期待していると主張していますが、それを非ランダムと呼びます。アポフェニアの典型的な例。
パウリトゥス

1
自分の立場を誤って述べている対談者との会話を続けるのは難しいので、私はこれに屈するつもりです。ごめんなさい。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.