統計とビッグデータ randomness

3

m人のリストからn人がy人のリストからx人をランダムに選択する確率はどれくらいですか？

私が363人のプールから232人を置換なしで選択している場合、その選択に12人の特定の人のリストの2人がいる確率はどのくらいですか？これは、232スポットに363人のエントリーがあったウルトラレースのランダムな抽選です。選択が12人の特定のグループに対して偏っていたかどうかについては、議論があります。これを計算する私の最初の試みは、232が363の可能な選択を選択することでした。12のリストから任意の1人の組み合わせの数は、1を選択12 + 2を選択12 + ... + 11を選択12 + 12を選択12です。したがって、1を選択12 + 2を選択12 .... / 232を選択363 。これは非常に低い数値になり、明らかに低すぎます。これをどのように計算しますか？

10 combinatorics randomness hypergeometric

4

ベイジアンフレームワークではどのようにデータが生成され、データを生成するパラメーターの性質は何ですか？

私はベイジアン統計を再学習しようとしていました（私が最終的にそれを得たと思うたびに、以前に考慮しなかった何かがポップアウトします...）。しかし、データ生成プロセスが（私にとって）明確ではありませんでした。ベイジアンフレームワークでは実際にそうです。頻出主義の枠組みは私には明らかです。いくつかの「真の」パラメータあり、そのパラメータは、パラメータ化する分布に従ってデータを生成します。θθ\theta ただし、ベイジアン設定では、パラメーターを確率変数としてモデル化します。その部分は私を混乱させません。ベイジアンはこの確率をそれ自体の信念の不確実性として解釈するので、それは理にかなっています。彼らは確率を繰り返し不可能なイベントに割り当てても大丈夫です。だから私が「ベイズ主義」を解釈した方法は、データを生成するいくつかのパラメータがあると信じているということでした、それは決定的には不明ですが、それでも「自然」によって決定されたら修正されましたすることが）。それにもかかわらず、それは修正され、それゆえ、それは「再現不可能な出来事」でした。再現性はありませんでしたが、信念を更新することのみを試みていますθθ\theta与えられたデータ。したがって、データは、確率分布によって考慮されている（以前の）パラメーターのいずれかによって生成された可能性がありますが、それでもパラメーターは固定されており、不明です。確率値を付けているだけです。この見解では、データ生成プロセスが常連客のプロセスとほぼ同じであると想定することは私にとって理にかなっています。「自然」は、「真の」「前の」分布を使用してパラメーターを選択し、確率変数がその「真の」（しかし固定された）実現を実現すると、観測したデータの生成を開始します。θθ\thetaP∗（θ ）P∗（θ）P^*(\theta) これは、ベイジアンフレームワークでのデータ生成プロセスを解釈する標準的な方法ですか？私の見解の主なものは、パラメーターが決定的に固定され（rvの実現として見られる）、に従ってデータを生成することです。したがって、私の見解のもう1つの非常に重要な点は、私にとって、以前のものは、パラメータを作成する固定された（反復不可能な）イベントに対する不確実性を表現する定量化可能な方法にすぎないということです。それは人々が以前のをどのように解釈するのですか？θθ\thetaθθ\thetaθθ\thetaP（θ ）P（θ）P(\theta) ユーモラスなメモ：彼女がどうやってそれをやっているのかを「自然」に尋ねて、これを一度に解決することができればいいのに...

9 bayesian modeling prior frequentist randomness

3

一連の独立した乱数の差分のL番目の階数をとるときの高い自己相関

この質問をより詳細に説明するために、まず私のアプローチを詳しく説明します。一連の独立した乱数をシミュレートしました。X={x1,...,xN}X={x1,...,xN}X = \{x_1,...,x_N\} 次に、倍の差を取ります。つまり、変数を作成します。LLL dX1={X(2)−X(1),...,X(N)−X(N−1)}dX1={X(2)−X(1),...,X(N)−X(N−1)}dX_{1} = \{X(2)-X(1),...,X(N)-X(N-1)\} dX2={dX1(2)−dX1(1),...,dX1(N−1)−dX1(N−1−1)}dX2={dX1(2)−dX1(1),...,dX1(N−1)−dX1(N−1−1)}dX_{2} = \{dX_{1}(2)-dX_{1}(1),...,dX_{1}(N-1)-dX_{1}(N-1-1)\} ......... dバツL= { dバツL − 1（2 ）− dバツL − 1（1 ）、。。。、dバツL − 1（N− L ）− dバツL − 1（N− L − 1 ）}dXL={dXL−1(2)−dXL−1(1),...,dXL−1(N−L)−dXL−1(N−L−1)}dX_{L} = \{dX_{L-1}(2)-dX_{L-1}(1),...,dX_{L-1}(N-L)-dX_{L-1}(N-L-1)\} が大きくなると、の（絶対）自己相関が増加することがます。ACは場合でも0.99に近づきます。つまり、L次の差をとるとき、最初は独立したシーケンスから、一連の非常に依存する数（シーケンス）を作成します。dバツLdXLdX_{L}LLLL > 100L>100L >100 これが私の観察を説明するグラフです。私の質問：このアプローチの背後にある理論、およびその含意またはそのアプリケーションへの応用はありますか？これは、このアプローチが（コンピューターの）疑似乱数ジェネレーターの弱点を悪用していることを示していますか？つまり、生成された「ランダム」シーケンスは完全にランダムではなく、これは私のアプローチから示されている/証明されていますか？シーケンスの次の数（つまり）を予測するために、L次の差異の高い自己相関を利用できますか？つまり、次の数を予測できる場合（たとえば、線形回帰によって）、累積合計の倍をとることによって、推定シーケンスを推定できます。これは実行可能なアプローチですか？バツ（N+ 1 ）X(N+1)X(N+1)dバツLdXLdX_{L}バツ（私）X(i)X(i)LLL 客観的注意は、私が予測しようとしていることをが、番号がindependentalyとランダムに生成されているので、これは（の低交流は非常に困難である）。バツ（N+ 1 ）X(N+1)X(N+1)NNN

9 autocorrelation random-generation randomness sequential-analysis sequential-pattern-mining

1

交換条件が混在する黒と白のボールのセットで黒のボールを描く確率

黒いボールが描かれた場合、セットでは置き換えられず、白いボールが置き換えられます。私はこれについて、次の表記で考えました： bbb、www黒と白のボールの初期数 xi=(b−i)/(b+w−i)xi=(b−i)/(b+w−i）x_i = (b - i)/(b + w - i) nがドローした後に黒いボールをドローする確率Pb(n)Pb(n)Pb(n)： Pb(0)Pb(1)Pb(2)Pb(n)=x0=(1−x0)x0+x0x1=(1−x0)2x0+x0x1(1−x0)+x0x1(1−x1)+x0x1x2=∑k=0n−1(∏i=0kxi∏i<=kn−k terms1−xi)Pb(0)=x0Pb(1)=(1−x0)x0+x0x1Pb(2)=(1−x0)2x0+x0x1(1−x0)+x0x1(1−x1)+x0x1x2Pb(n)=∑k=0n−1(∏i=0kxi∏i<=kn−k terms1−xi)\eqalign{ Pb(0) &= x_0\\ Pb(1) &= (1-x_0)x_0 + x_0x_1\\ Pb(2) &= (1-x_0)^2x_0 + x_0x_1(1-x_0)+ x_0x_1(1-x_1) + x_0x_1x_2 \\ Pb(n) &= \sum\limits_{k=0}^{n-1} (\prod\limits_{i=0}^k x_i \prod\limits_{i<=k}^{n-k\ terms} 1-x_i) } この合計は、いくつかの用語がnullであっても、と無限のようだn個xi≥b=0xi≥b=0x_{i \ge b}=0 除く：P b （n ）= （1 …

8 conditional-probability randomness

4

文字列がランダムでないか確認する

背景アルファベットのがあるとしますA,B, C, D。次に、いくつかのデータを調べて「単語」を見つけます。これはDDDDDDDDCDDDDDD、このランダムを見つける可能性が低いようですが、BABDCABCDACDBACDランダムではないようです。質問遭遇した文字列がランダムでないかどうかを確認するにはどうすればよいですか？私はRでいくつかのことを試みました。たとえば、文字を数値的にエンコードし、これらを順列と比較しました。しかし、事前のエンコードはかなり面倒であり、これにはより直接的なアプローチがあると思われます。

8 text-mining randomness

タグ付けされた質問 「randomness」

タグ付けされた質問「randomness」