レジームでのボールとビンの分析:ギャップ


23

個のボールをビンに投げているとします(。LETビンに終わるボールの数である、最も重いビン、ことX_が\分軽量ビンであり、そしてX _ {\ mathrm {SEC-maxが}}第重いビンです。大まかに言えば、X_i-X_j \ sim N(0,2m / n)であるため、| X_i-X_j |が期待されます。= \ Theta(\ sqrt {m / n})任意の2つの固定i、jに対して。ユニオン境界を使用すると、X _ {\ max}-X _ {\ min} = O(\ sqrt {m \ log n / n})が期待されます。おそらく、n / 2を考慮することにより、一致する下限を得ることができますmnmnXiiXmaxXminXsecmaxXiXjN(0,2m/n)|XiXj|=Θ(m/n) i,jXmaxXmin=O(mlogn/n)n/2ばらばらのビンのペア。この(完全に正式ではない)引数リード米国期待することとの間の隙間XmaxXminΘ(mlogn/n)高い確率で。

XmaxX _ {\ mathrm {sec-max}}のギャップに興味がありXsecmaxます。上記の引数は、XmaxXsecmax=O(mlogn/n)である可能性が高いことを示していますが、logn因子は無関係のようです。X_ \ max-X _ {\ mathrm {sec-max}}の分布について何か知られていXmaxXsecmaxますか?

より一般的には、各ボールが各ビンの負でないスコアに関連付けられており、m個のボールを投げた後の各ビンの合計スコアに関心があるとします。通常のシナリオは、フォーム(0、\ ldots、0,1,0、\ ldots、0)のスコアに対応し(0,,0,1,0,,0)ます。ビンの順列の下でスコアの確率分布が不変であると仮定します(通常のシナリオでは、これはすべてのビンが同等であるという事実に対応します)。スコアの分布を考えると、最初の段落のメソッドを使用して、X _ {\ max}-X _ {\ min}の適切な境界を取得できXmaxXminます。境界には、\ sqrt {\ log n}の係数が含まれlognこれは、(通常の変数のテール確率を介して)結合境界から来ます。X _ {\ max}-X _ {\ mathrm {sec-max}}の境界に関心がある場合、この係数を減らすことができますXmaxXsecmaxか?


各スコアは[0,1]にありますか?
ニールヤング

本当に問題ではありません。常に[0,1]になるようにスケーリングできます[0,1]
ユヴァルフィルム

回答:


21

答え: Θ(mnlogn)

中心極限定理の多次元バージョンを適用すると、ベクトルが漸近多変量ガウス分布を持つ ことがわかります および 以下でガウスベクトルであると仮定します(ほぼガウスベクトルではありません)。分散ガウス確率変数をすべての追加します(はすべてのから独立しています)。つまり、みましょう V a r [ X i ] = m 1(X1,,Xn)CovXiXj=m/n2XZm/n2XiZXi Y 1 Y 2 Y n= X 1 +Z X 2 +Z X n +ZY1

Var[Xi]=m(1n1n2),
Cov(Xi,Xj)=m/n2.
X Zm/n2XiZXi
(Y1Y2Yn)=(X1+ZX2+ZXn+Z).
ガウスベクトルを取得します。各は分散ます: およびすべてのは独立しています: Y i m / n V a r [ Y i ] = V a r [ X i ] + 2 C o vX iZ =(Y1,,Yn)Yim/nYiCovYiYj=CovXiXj+ C o vX iZ + C o vX jZ =
Var[Yi]=Var[Xi]+2Cov(Xi,Z)=0+Var[Z]=m/n,
Yi
Cov(Yi,Yj)=Cov(Xi,Xj)+Cov(Xi,Z)+Cov(Xj,Z)=0+Cov(Z,Z)=0.

あることに注意してください。したがって、元の問題はを見つける問題と同等です。最初に、簡単にするために、すべてのに分散がある場合を分析します。Y m a xY s e c m a x Y i 1YiYj=XiXjYmaxYsecmaxYi1

問題。独立したガウスrvが与えられ、平均および分散ます。の期待値を推定します。γ 1... γ N μ 1 γ M A X - γ S E C - mは、Xがnγ1,,γnμ1γmaxγsecmax

答え:Θ(1logn)

非公式の証明。 この問題の非公式な解決策を以下に示します(公式にするのは難しくありません)。答えは平均に依存しないため、と仮定し。ましょう、。(適度に大きい) ˉ ΦT = Prの[ γ > T ] γ N0 1 T ˉ ΦT 1μ=0Φ¯(t)=Pr[γ>t]γN(0,1)t

Φ¯(t)12πte12t2.

ご了承ください

  • [ 0 1 ]Φ(γi)はに均一かつ独立して分布してい。[0,1]

  • Φ γ IΦ(γmax)の中で最小である、Φ(γi)

  • Φ(γsecmax)は中で2番目に小さいです。Φ(γi)

したがって、は近く、は近くなります(濃度はありませんが、そうでない場合)定数を気にするこれらの推定値は十分です;実際、定数を気にすればかなり良いのですが、それには正当化が必要です)。の式を使用すると、 1 / N Φ γ M A X2Φ(γmax)1/nΦ(γmax)2/nΦ¯(t)

2Φ¯(γsecmax)/Φ¯(γmax)e12(γmax2γsecmax2).

したがって、は whpです。我々は、持っている γmax2γsecmax2Θ(1)γmaxγsecmax=Θ(logn)

γmaxγsecmaxΘ(1)γmax+γsecmaxΘ(1)logn.

QED

我々は、それを取得

E[XmaxXsecmax]=E[YmaxYsecmax]=Var[Yi]×E[γmaxγsecmax]=Θ(mnlogn).

任意のスコアがある場合も同じ議論が続きます。その示し

E[XmaxXsecmax]=cE[XmaxXmin]/logn.

2
ありがとう!次回は多変量ガウス近似を試すことを忘れないでください。
ユヴァルフィルム

5
ユリー、あなたは「すべての分散ガウスベクトルを追加します。ガウスベクトルを取得します。各は分散あり、すべてのはそうではありません」相関...注意してください。 " この部分を拡張できますか?ある?場合さんが依存している、とさんは、独立した(または一様に同じ)され、どのようにすることができますさんは独立していますか?(きちんとしたトリックのようですが、私はそれを理解していません。)ありがとう。m / n 2Zm/n2Xi(Y1,,Yn)Yim/nYiYiYj=XiXjZi=ZjXiZiYi
ニールヤング

1
@NealYoung、はい、私たちは、変数がある場合負のペアワイズ相関を持つとし、すべての共分散である等しい、我々は追加することができ、単一の新しいランダム変数全てによう合計は独立しています。また、変数が正の相関を持ち、すべての共分散が等しい場合、すべての差が独立するように、それらすべてから単一のrv減算できます。ただし、はから独立しているのではなく、X1,,XnCov(Xi,Xj)ZXiCov(Xi,Xj)ZZXiZ=α(X1++Xn)スケーリングパラメータ。α
ユーリー

1
ああ、なるほど。少なくとも代数的には、Zと各ペアごとの独立性のみに基づいています。とてもかっこいい。Xi
スレシュヴェンカト

1
この引数は、EC.14の論文(属性付き)dl.acm.org/citation.cfm?id=2602829に表示されます。
ユヴァルフィルマス

13

最初の質問については、whpが ことを示すことができると思います。 これはことに注意してください。XmaxXsec-max

o(mnlog2lognlogn).
o(m/n)

ランダム実験を次の選択肢と比較してください。最初のバケットのいずれかの最大負荷をとします。してみましょう最後のいずれかの最大荷重もバケット。X1n/2X2n/2

考慮して、上部に結合している。また、少なくとも半分の確率で、。したがって、大まかに言えば、はと同様に分布します。|X1X2|XmaxXsecmax|X1X2|=XmaxXsecmaxXmaxXsecmax|X1X2|

勉強するには、高い確率でボールが最初のビンに投げられ、同様に最後のビンにも投げられることに注意してください。したがって、とはそれぞれ、ボールをビンに投げたときの最大負荷のように基本的に分散されます。|X1X2|m/2±O(m)n/2n/2X1X2m=m/2±o(m)n=n/2

この分布はよく研究されており、幸いなことに、この議論については、その平均に密接に集中しています。たとえば、、は高い確率で、この回答の上部に表示される量だけ、[ Thm。1 ]。(注:ユリの答えを考えると、この上限はゆるいと思います。)したがって、高い確率でと差も大きくなるため、と違いは最大でこれだけです。mnlog3nX1X1X2XmaxXmaxsec

逆に、(やや弱い)下限の場合、任意のに対して、たとえば、その後は少なくとも これは、(単純な結合境界によって)少なくとも これにより、(たとえば)一定の要因内でが期待できると思います。Pr [ | X 1 - X 2tのPr [ X マックス - X 秒-MAXT ] のPr [ | X 1 - 1 / 2 = 1 / 4 X マックス - X 秒-MAXPr[|X1X2|t]3/4Pr[XmaxXsec-maxt]

Pr[|X1X2|t  XmaxXsec-max=|X1X2|]
1(1/4)(1/2)=1/4.XmaxXsec-max

Thmを見て。1、予想との違いはであり、あなたが書いたものではありません。それはまだよりもはるかに優れてい。O((m/n)loglogn)O((m/n)logn)
ユヴァルフィルム

Thmによって。1(その3番目のケース)、確率場合、ビン(n個のビンのm個のボールの最大値は 私の数学では()、項は加算絶対項に展開されます私は何を間違えていますか?ϵ>01o(1)
mn+2mlognn1(1±ϵ)loglogn2logn.
±εOε1δ=1O(δ)±ϵ
O(ϵ)mlognn loglognlogn = O(ϵ)mn log2lognlogn.
ニールヤング

ああ-私はあなたが正しいと思います。平方根の内部を減算し、それが図を取得する方法です。
ユヴァルフィルマス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.