離散均一分布から置換せずに描画されたサンプル間の最大ギャップ


16

この問題は、ロボットカバレッジに関する私の研究室の研究に関連しています。

セットから数字を置換せずにランダムに描画し、数字を昇順で並べ替えます。 。n{1,2,,m}1nm

この並べ替えられた数字のリスト、連続する数字と境界の差を生成します。これにより、ギャップが与えられます。{a(1),a(2),,a(n)}g={a(1),a(2)a(1),,a(n)a(n1),m+1a(n)}n+1

最大ギャップの分布は何ですか?

P(max(g)=k)=P(k;m,n)=?

これは、使用することができるフレーム順序統計量をP(g(n+1)=k)=P(k;m,n)=?

ギャップ分布についてはリンクを参照してくださいが、この質問は最大ギャップの分布を求めています。

平均値\ mathbb {E} [g _ {(n + 1)}]に満足しE[g(n+1)]ます。

n = mの場合n=m、すべてのギャップはサイズ1ですn+1=m場合、サイズ2のギャップが1つ2あり、n+1可能な場所があります。最大のギャップサイズはmn+1であり、このギャップはn 数字の前または後に配置でき、合計でn+1可能な位置になります。最小の最大ギャップサイズはmnn+1です。任意の組み合わせT = {m \ choose n} ^ {-1}の確率を定義しますT=(mn)1

P(g _ {(n + 1)} = k)= P(k; m、n)= \ begin {cases} 0&k <\ lceil \ frac {mn} {として確率質量関数を部分的に解きました (1)P(g(n+1)=k)=P(k;m,n)={0k<mnn+11k=mnn+11k=1 (occurs when m=n)T(n+1)k=2 (occurs when m=n+1)T(n+1)k=m(n1)n?m(n1)nkmn+1T(n+1)k=mn+10k>mn+1

現在の仕事(1): 最初のギャップa _ {(1)}の方程式a(1)は簡単です:

P(a(1)=k)=P(k;m,n)=1(mn)k=1mn+1(mk1n1)
期待される値は単純な値です: E[P(a(1))]=1(mn)k=1mn+1(mk1n1)k=mn1+n。対称性により、すべてのnギャップにこの分布があることが予想されます。おそらく、この分布からn回描画することで解決策を見つけることができます。

現在の作業(2):モンテカルロシミュレーションの実行は簡単です。

simMaxGap[m_, n_] := Max[Differences[Sort[Join[RandomSample[Range[m], n], {0, m+1}]]]];
m = 1000; n = 1; trials = 100000;
SmoothHistogram[Table[simMaxGap[m, n], {trials}], Filling -> Axis,
Frame -> {True, True, False, False},
FrameLabel -> {"k (Max gap)", "Probability"},
PlotLabel -> StringForm["m=``,n=``,smooth histogram of maximum map for `` trials", m, n, trials]][![enter image description here][1]][1]

1
これらの条件では、n <= mでなければなりません。g = {a_(1)、a_(2)-a_(1)、...、a_(n)-a_(n-1)}が欲しいと思います。ランダム選択は、最初の抽選で確率1 / mで各数字を選択することを意味しますか?置換しないので、確率は2番目で1 /(m-1)になり、n = mの場合はm番目のドローで1になります。n <mの場合、n番目のドローで最後のドローが確率1 /(m-(n-1))で停止します。
マイケルR.チャーニック

2
元の説明は意味がありません。なぜなら、2つの添え字を転置したからだと思います。具体的には、必ずご確認くださいそこにためにあなたが意味すること:あなたの意図と私の編集が準拠していることを確認してくださいそのギャップ、最初のものであるが。gna(1)
whuber

1
@gung私は、これはかなり自習よりも、研究だと思う
Glen_b -Reinstateモニカ

1
最小および最大のギャップサイズはおよび必要があります。最小のギャップサイズは、連続した整数が選択された場合で、最大のギャップサイズは、および最初の整数(またはおよび)を選択した場合に発生します1mn+1mn11,,n11mn+2,,m
確率論的

1
マイケル・チェルニックと確率論に感謝します、あなたの修正はなされました。@whuberを修正してくれてありがとう!
アーロンベッカー

回答:


9

ましょう、最小の可能性であるに等しい。つまり、サンプルはとサブセットのます。あるのうち、このようなサブセット等しく可能性サブセット、そこf(g;n,m)a(1)ggn1{g+1,g+2,,m}(mgn1)(mn)

Pr(a(1)=g=f(g;n,m)=(mgn1)(mn).

より大きいすべての可能な値にを追加すると、生存関数が得られます。f(k;n,m)kg

Pr(a(1)>g)=Q(g;n,m)=(mg)(mg1n1)n(mn).

ましょう最大ギャップによって与えられる確率変数です。Gn,m

Gn,m=max(a(1),a(2)a(1),,a(n)a(n1)).

(これは、と間のギャップを含むように修正される前に、元々フレーム化された質問に応答します。)a(n)m その生存関数そこから分布全体が容易に導出されます。このメソッドは、で始まる動的プログラムであり、そのことは明らかです

P(g;n,m)=Pr(Gn,m>g),
Gn,mn=1

(1)P(g;1,m)=Pr(G1,m>1)=mgm, g=0,1,,m.

より大きな場合、イベントはイベントの互いに素な結合であることに注意してくださいn>1Gn,m>g

a1>g,

最初のギャップがを超え、個別のイベントgg

a1=k and Gn1,mk>g, k=1,2,,g

この場合、最初のギャップは等しく、より大きいギャップはサンプルの後半で発生します。合計確率の法則は、これらのイベントの確率が追加されることを主張しています。kg

(2)P(g;n,m)=Q(g;n,m)+k=1gf(k;n,m)P(g;n1,mk).

を修正し、およびでインデックス付けされた双方向配列をレイアウトすると、を使用して計算でき最初の行に入力し、行ごとに操作を使用して連続する各行に入力します。したがってテーブルがで完了することができる操作とのためのすべてのテーブルを介して構築することができる操作。gi=1,2,,nj=1,2,,mP(g;n,m)(1)(2)O(gm)O(gmn)g=1g=mn+1O(m3n)

図

これらのグラフは、の生存関数をます。上昇、左のグラフが移動し、大きなギャップの減少の可能性に対応します。gP(g;n,64)n=1,2,4,8,16,32,64n

閉じた式は、多くの特別な場合、特に大きなで取得できますが、すべての適用される閉じた式を取得できませんでした。この問題を連続した均一変数の類似の問題に置き換えることにより、すぐれた近似を容易に利用できます。P(g;n,m)ng,n,m

最後に、の期待値は、から始まる生存関数を合計することで取得され。Gn,mg=0

E(Gn,m)=g=0mn+1P(g;n,m).

図2:期待の等高線図

この期待値の等高線図は、、暗から明へと等高線を示しています。2,4,6,,32


提案:行「最大ギャップで与えられたランダム変数:」とし、の最後のギャップを追加してください。あなたの期待プロットは私のモンテカルロシミュレーションと一致します。Gn,mm+1an
アーロンベッカー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.