サンプルで十分であること( //の下限を示すことで、以前のエラーを和らげようとします。はほぼタイトです)!あなたの考えをご覧ください....1/ϵ2Θ~(1ϵ2)1/ϵ2
重要な直観は、2つの観察から始まります。まず、分布の距離がになるためには、確率の高い点()が必要です。たとえば、確率ポイントがある場合、。 ε Ω (ε 2)1 / ε 3 ε 3 ‖ D 1 - 、D 2 ‖ 2 ≤ √L2ϵΩ(ϵ2)1/ϵ3ϵ3∥D1−D2∥2≤1ϵ3(ϵ3)2−−−−−−√=ϵ3/2<ϵ
2番目に、距離が一様分布を考えます。私たちが持っていた場合は確率のポイント、その後、彼らはそれぞれで異なりますとのサンプルは十分であろう。一方、ポイントがある場合、それらはそれぞれおよびサンプル(それぞれの定数ポイント)で十分です。したがって、前述の高確率のポイントの中で、描くことで「十分に」異なる点が常に区別されることを期待できます。 ϵ O (1 )O (1 )O (ϵ )1 / ϵ 2 O (1 / ϵ 2)O (ϵ 2)O (1 / ϵ 2)O (1 / ϵ 2)L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)
アルゴリズム。と信頼度パラメーター与えられた場合、ます。各分布からサンプルを描画します。ましょうそれぞれ高く、点用サンプルのより少ない数である。および点がある、分布が異なります。それ以外の場合は、同じように宣言します。M X = M log (1 / ϵ 2)XϵMX=Mlog(1/ϵ2) I、BIII∈[N]AI≥XXϵ2ai,biii∈[n] I-BI≥√ai≥X8ai−bi≥ai−−√X√4
正確さと信頼限界()は、距離のすべての偏差が確率が異なる点から来るという次の補題に依存します。 L 2 Ω (ε 2)1−e−Ω(M)L2Ω(ϵ2)
請求。と仮定します。してみましょう。ましょう。次に、
δ I = | D 1(i )− D 2(i )| SのK = { I :δ I > ε 2∥D1−D2∥2≥ϵδi=|D1(i)−D2(i)|ΣI∈ S K δ 2 iが ≥ε2(1-2Sk={i:δi>ϵ2k}
∑i∈Skδ2i≥ϵ2(1−2k).
証明。我々は持っている
2番目の合計をバインドしましょう。我々は最大限にしたいの対象。関数は厳密に凸で増加しているため、任意の、を増加させ、を減少させることにより、目的を増加させることができます。したがって、目標は最大値で可能な限り多くの項で最大化され、残りはΣ I ∉ S K δ 2 I Σ I ∉ S K δI≤2X↦X2δI≥δjをδIγδjをγ0 ε 2
∑i∈Skδ2i + ∑i∉Skδ2i≥ϵ2.
∑i∉Skδ2i∑i∉Skδi≤2x↦x2δi≥δjδiγδjγ0。各項の最大値はであり、この値には最大で項があります(合計が最大)。したがって、
2kϵ2k 2ΣI∉SKδ 2 I ≤2K2kϵ22∑i∉Skδ2i≤2kϵ2(ϵ2k)2=2ϵ2k. □
請求。ましょう。もし、少なくとも1つの点が存在するとと。‖ D 1 - 、D 2 ‖ 2 ≥ ε I ∈ [ N ] P I > ε 2pi=max{D1(i),D2(i)}∥D1−D2∥2≥ϵi∈[n] δ私≥ε √pi>ϵ24δi≥ϵpi√2
証明。まず、すべての点は、によりをます(また、前のクレームでは場合、は空にできません)。P I ≥ δ I > ε 2Sk Skk>2pi≥δi>ϵ2kSkk>2
次に、であるため、
または再配置、
なので、不等式
は、少なくとも1つの点をます。次に、を選択します。Σ I ∈ S K δ 2 iが ≥ ε 2 (1∑ipi≤2ΣI∈SK(δ 2 I -PIε2(1
∑i∈Skδ2i≥ϵ2(12−1k)∑i∈Skpi,
δ2I≥PIε2(1∑i∈Sk(δ2i−piϵ2(12−1k))≥0,
S、K、K=4を◻δ2i≥piϵ2(12−1k)
Skk=4□
クレーム(誤検知)。場合、当社のアルゴリズムは、せいぜい確率で異なるそれらを宣言。E - Ω (M )D1=D2e−Ω(M)
スケッチ。と 2つの場合を考えてください。最初のケースでは、のサンプル数はどちらの分布からもを超えません。平均サンプル数はあり、テールバウンドは確率、のサンプルは加法平均を超えません。値をテール境界に維持するように注意すると、そのようなポイントがいくつあっても、それらを結合できます(直感的には、境界は可能なポイントの数で指数関数的に減少します)。pi<ϵ2/16pi≥ϵ2/16iX/8<X/16e−Ω(X/pi)=ϵ2e−Ω(M/pi)iX/16pi
場合、私たちはチャーノフを使用することができますバインド:私たちが取るときには、以下のことを言いますサンプルをとポイントが確率で描かれ、その平均値と異なる可能性によっては最大でです。ここでは、とするため、確率はによって制限されます。pi≥ϵ2/16mppmcpm−−−√e−Ω((cpm√)2/pm)=e−Ω(c2)c=X√16e−Ω(X)=ϵ2e−Ω(M)
そう確率、(両方のディストリビューション)のサンプル数範囲内であるその平均の。したがって、テストではこれらのポイントをキャッチせず(互いに非常に近い)、のすべてを結合できます。1−ϵ2e−Ω(M)ipiXϵ2−−−−√X√16piXϵ216/ϵ2□
クレーム(偽陰性)。もし、当社のアルゴリズムはせいぜい確率で同じそれらを宣言しています。∥D1−D2∥2≥ϵϵ2e−Ω(M)
スケッチ。いくつかのポイントがあるとと。前のクレームと同じチャーノフ限界は、確率で、のサンプル数がその平均と最大で異なることを示しています。。これは、を持つ(WLOG)ディストリビューション場合です。しかし、分布からののサンプル数の確率はさらに低いipi>ϵ2/4δi≥ϵpi−−√/21−ϵ2e−Ω(M)ipimpim−−−√X√161pi=D1(i)=D2(i)+δii2 この平均値とこの加算量の差(平均値と分散が低いため)。
したがって、高い確率で、各分布からののサンプル数は、平均の以内です。しかし、それらの確率はによって異なるため、平均は
ipiXϵ2−−−√X√16δi
Xϵ2δi≥Xpi−−√2ϵ=piXϵ2−−−−√X−−√2.
したがって、ポイント場合、サンプル数は少なくとも異なる可能性が高くなります。i#samples(1)−−−−−−−−−−−√X√4□
スケッチを完了するには、十分に大きい場合、のサンプル数が平均に十分に近いことを、アルゴリズムがではなく使用する場合に、より厳密に示す必要があり、それは何も変更しません(定数にいくつかの小刻みの余地を残すことで簡単になります)。Mi#samples−−−−−−−−√mean−−−−−√