ノルムで近さをテストする


11

次の問題で既知の下限(サンプルの複雑さ)があるかどうか疑問に思っていました。

2つの未知の分布に与えられたサンプルのOracleアクセス、に、テスト(WHP)かD1D2{1,,n}

  • D1=D2
  • またはd2(D1,D2)=D1D22=i=1n(D1(i)D2(i))2ϵ

バトゥ等。[BFR + 00]は、O(1ϵ4)サンプルで十分であることを示しましたが、下限について言及していません。

私は、この問題に対して公平と\ epsilonバイアスのコインを区別するタスクを減らすことにより、Ω(1ϵ2)下限を常に表示できると考えています(2つだけでサポートされる分布のシミュレーションポイント、およびiidコインの投げに応じてテスターのクエリに答えます)が、それでも2次ギャップが残ります...ϵ

(私が興味を持つ別のポイントは、このL_2距離を推定する際の下限(追加のϵ)です—繰り返しますが、そのような結果への参照は文献で見つかりませんでした)L2

ご協力いただきありがとうございます、


この約束の問題は、SahaiとVadhanによる統計的差異と呼ばれる問題に非常に似ているようです。これは、クラスSZK(統計ゼロ知識)の完全な問題です。ただし、距離を使用します。cs.ucla.edu/~sahai/work/web/2003%20Publications/J.ACM2003.pdf。(編集:また、オラクルアクセスではなく、ディストリビューションを計算する回路があることを前提としていると思います。)L1
usul

こんにちは、別のコメントで述べたように、とノルムの違いはここで実際に重要です-さらに、論文では、明示的な(任意ではない)しきい値を設定します(発言の1つで、彼らは、この閾値が特定の制約を満たす必要があることを説明しています); とを区別したい(これは、とをテストする「通常のテスト」よりも許容テスト/距離の推定に近い)(しかしための任意の固定))。L 1 τ = 1 / 3 D 1τ D 21 - τ 、D 2 = 0 、D 2ε εL2L1τ=1/3d1τd21τd2=0d2ϵϵ
クレメントC.

回答:


6

その表示 - usulは、以下のように示し-試料の複雑さが正確であるように、試験のために十分であるサンプルが。実際、このサンプル数は、ノルムに対する加法まで学習するのに十分であることがます。Θ 1 / ϵ 2D ϵ L 2O(1/ϵ2)Θ(1/ϵ2) DϵL2


ましょう描画することによって得られた経験的密度関数でありサンプルIIDと設定 Then ここで、。 MS1...SMD DKD^ms1,,smDD - D2 2

D^(k)=def1m=1m1{s=k},k[n]
Xk
DD^22=k=1n(1m=1m1{s=k}D(k))2=1m2k=1n(=1m1{s=k}mD(k))2=1m2k=1n(XkEXk)2
XKK[N] ED - D2 2Xk=def=1m1{s=k}Bin(m,D(k))Xk()は独立ではありませんが、書くことができます ようにするため、 およびマルコフの不等式の適用 k[n] M3
EDD^22=1m2k=1nE[(XkEXk)2]=1m2k=1nVarXk=1m2k=1nmD(k)(1D(k))1mk=1nD(k)=1m
ED - D 2 2ε2m3ϵ2 P{D - D2ε}1
EDD^22ϵ23
P{DD^2ϵ}13.

(私は「正反対の何かを示すことによって以前のエラーを償おうとします[...]」で始まるusulの答えを参照していました。これは実際にこれより上です。これは予想していませんでした:))上限、最も素朴なアルゴリズム(つまり、サンプルを描画し、これが定義する経験密度を出力するアルゴリズム)は、分布を生成することが示されます。一定の確率で、ある、 -closeににおける距離。D ε D L 2m=O(1/ϵ2)D^ϵDL2
クレメント

@DW答えを編集しました。
クレメントC。13年

3

サンプルで十分であること( //の下限を示すことで、以前のエラーを和らげようとします。はほぼタイトです)!あなたの考えをご覧ください....1/ϵ2Θ~(1ϵ2)1/ϵ2

重要な直観は、2つの観察から始まります。まず、分布の距離がになるためには、確率の高い点()が必要です。たとえば、確率ポイントがある場合、。 ε Ω ε 21 / ε 3 ε 3D 1 - 、D 2 2L2ϵΩ(ϵ2)1/ϵ3ϵ3D1D221ϵ3(ϵ3)2=ϵ3/2<ϵ

2番目に、距離が一様分布を考えます。私たちが持っていた場合は確率のポイント、その後、彼らはそれぞれで異なりますとのサンプルは十分であろう。一方、ポイントがある場合、それらはそれぞれおよびサンプル(それぞれの定数ポイント)で十分です。したがって、前述の高確率のポイントの中で、描くことで「十分に」異なる点が常に区別されることを期待できます。 ϵ O 1 O 1 O ϵ 1 / ϵ 2 O 1 / ϵ 2O ϵ 2O 1 / ϵ 2O 1 / ϵ 2L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)

アルゴリズム。と信頼度パラメーター与えられた場合、ます。各分布からサンプルを描画します。ましょうそれぞれ高く、点用サンプルのより少ない数である。および点がある、分布が異なります。それ以外の場合は、同じように宣言します。M X = M log 1 / ϵ 2XϵMX=Mlog(1/ϵ2) IBIII[N]AIXXϵ2ai,biii[n] I-BIaiX8aibiaiX4

正確さと信頼限界()は、距離のすべての偏差が確率が異なる点から来るという次の補題に依存します。 L 2 Ω ε 21eΩ(M)L2Ω(ϵ2)

請求。と仮定します。してみましょう。ましょう。次に、 δ I = | D 1i D 2i | SのK = { I δ I > ε 2D1D22ϵδi=|D1(i)D2(i)|ΣI S K δ 2 iがε21-2Sk={i:δi>ϵ2k}

iSkδi2ϵ2(12k).

証明。我々は持っている 2番目の合計をバインドしましょう。我々は最大限にしたいの対象。関数は厳密に凸で増加しているため、任意の、を増加させ、を減少させることにより、目的を増加させることができます。したがって、目標は最大値で可能な限り多くの項で最大化され、残りはΣ I S K δ 2 I Σ I S K δI2XX2δIδjをδIγδjをγ0 ε 2

iSkδi2 + iSkδi2ϵ2.
iSkδi2iSkδi2xx2δiδjδiγδjγ0。各項の最大値はであり、この値には最大で項があります(合計が最大)。したがって、 2kϵ2k 2ΣISKδ 2 I2K2kϵ22
iSkδi22kϵ2(ϵ2k)2=2ϵ2k.    

請求。ましょう。もし、少なくとも1つの点が存在するとと。D 1 - 、D 2 2ε I [ N ] P I > ε 2pi=max{D1(i),D2(i)}D1D22ϵi[n] δεpi>ϵ24δiϵpi2

証明。まず、すべての点は、によりをます(また、前のクレームでは場合、は空にできません)。P Iδ I > ε 2Sk Skk>2piδi>ϵ2kSkk>2

次に、であるため、 または再配置、 なので、不等式 は、少なくとも1つの点をます。次に、を選択します。Σ I S K δ 2 iがε 2 1ipi2ΣISKδ 2 I -PIε21

iSkδi2ϵ2(121k)iSkpi,
δ2IPIε21
iSk(δi2piϵ2(121k))0,
S、K、K=4を
δi2piϵ2(121k)
Skk=4

クレーム(誤検知)。場合、当社のアルゴリズムは、せいぜい確率で異なるそれらを宣言。E - Ω M D1=D2eΩ(M)

スケッチ。と 2つの場合を考えてください。最初のケースでは、のサンプル数はどちらの分布からもを超えません。平均サンプル数はあり、テールバウンドは確率、のサンプルは加法平均を超えません。値をテール境界に維持するように注意すると、そのようなポイントがいくつあっても、それらを結合できます(直感的には、境界は可能なポイントの数で指数関数的に減少します)。pi<ϵ2/16piϵ2/16iX/8<X/16eΩ(X/pi)=ϵ2eΩ(M/pi)iX/16pi

場合、私たちはチャーノフを使用することができますバインド:私たちが取るときには、以下のことを言いますサンプルをとポイントが確率で描かれ、その平均値と異なる可能性によっては最大でです。ここでは、とするため、確率はによって制限されます。piϵ2/16mppmcpmeΩ((cpm)2/pm)=eΩ(c2)c=X16eΩ(X)=ϵ2eΩ(M)

そう確率、(両方のディストリビューション)のサンプル数範囲内であるその平均の。したがって、テストではこれらのポイントをキャッチせず(互いに非常に近い)、のすべてを結合できます。1ϵ2eΩ(M)ipiXϵ2X16piXϵ216/ϵ2

クレーム(偽陰性)。もし、当社のアルゴリズムはせいぜい確率で同じそれらを宣言しています。D1D22ϵϵ2eΩ(M)

スケッチ。いくつかのポイントがあるとと。前のクレームと同じチャーノフ限界は、確率で、のサンプル数がその平均と最大で異なることを示しています。。これは、を持つ(WLOG)ディストリビューション場合です。しかし、分布からののサンプル数の確率はさらに低いipi>ϵ2/4δiϵpi/21ϵ2eΩ(M)ipimpimX161pi=D1(i)=D2(i)+δii2 この平均値とこの加算量の差(平均値と分散が低いため)。

したがって、高い確率で、各分布からののサンプル数は、平均の以内です。しかし、それらの確率はによって異なるため、平均は ipiXϵ2X16δi

Xϵ2δiXpi2ϵ=piXϵ2X2.

したがって、ポイント場合、サンプル数は少なくとも異なる可能性が高くなります。i#samples(1)X4

スケッチを完了するには、十分に大きい場合、のサンプル数が平均に十分に近いことを、アルゴリズムがではなく使用する場合に、より厳密に示す必要があり、それは何も変更しません(定数にいくつかの小刻みの余地を残すことで簡単になります)。Mi#samplesmean


こんにちは、これに感謝します—アルゴリズムと分析についていくつか質問があります(いくつかの点については確信が持てません):最後に成功のの一定の確率のみが必要だと仮定すると、正確に理解すれば、定数(が何であるか分からない場合)?したがって、この場合、に向けて:アルゴリズムによると、 —それは正しいですか?2/3MMXΘ(log1ϵ)
クレメントC.

@ClementC。すみません、あまりはっきりしていませんでした!主張は、サンプルを描画すると、間違っている確率はであるということです。間違っている一定の確率、そのサンプル。1ϵ2Mlog(1/ϵ2)O(eM)O(1ϵ2log(1/ϵ2))
-usul

OK、それは私が集めたものです。これを念頭に置いて証明を行います。これに時間を割いてくれてありがとう!
クレメントC.

1

場合、これを解決しようとすることから始めるかもしれません。その場合、サンプルが必要かつ十分であると確信しています。n=2Θ(1/ϵ2)

距離と距離(合計変動距離)の間の変換を調べると役立つ場合があります。L2L1

  • 1つのサンプルで、分布がわかっている場合、総変動距離はと区別できる利点を完全に特徴付けることがわかっています。したがって、合計変動距離が大きく、分布がわかっている場合、高い確率で正しいテストを作成できます。合計変動距離が小さい場合は、できません。合計変動距離は大きいが、分布は不明である場合について、私は何を言うことができるかわかりません。D1D2

  • 次に、製品の分布およびます。総変動距離(距離)を使用すると、を関連付ける適切な境界はないようです。ただし、距離を使用する場合は、が関数として適切に推定されると思います。(残念なことに、これらの推定値/境界の特定の参照を掘り下げることはできないので、誤解しないことを望みます。)距離の関数として距離を推定できる既知の境界もあります。D1nD2nL1||D1nD2n||1||D1D2||1L2||D1nD2n||2||D1D2||2L1L2

  • したがって、バインドしてから、バインドする方法があります。||D1nD2n||2||D1nD2n||1

これが良いところにつながるかどうかはわかりません。それは単なるアイデアです。おそらく、あなたが引用した論文の著者は、すでにこのようなことを試みているか、検討しているでしょう。

役立つ参考資料:


こんにちは、あなたの答えをありがとう!ただし、場合の漸近的な下限に興味があります。特に、ノルムとノルムの関係には係数が関係します。つまり、これらは定数に対して実際には同等ですが、漸近的に非常に異なります。距離をプロキシとして使用することは、私が知る限り、オプションではありません(距離の近さをテストする場合、正確な複雑さは [BFR + 10Val11 ]nL2L1nnL1L1Θ(n2/3/poly(ϵ))
クレメントC.

0

編集:これは間違っています!コメントの議論を参照してください-私は以下の欠陥を指摘します。

が必要だと言えると思います。1ϵ4

セット。ましょう一様分布である(各点の確率を)およびlet添加量によって均一異なる各点における。距離があることを確認します。n=Θ(1ϵ2)D1=Θ(ϵ2)D2±Θ(ϵ2)L2ϵ

我々は区別しなければならないので、から-sided公正なコインを -sided -biasedコイン。私は、これはハードとして少なくとも伝えるようであるべきだと思うから-sided公正硬貨 -sidedが必要となる-biasedコイン、サンプル。編集:これは間違っています!コインは付加的に -biasedですが、定数因子によって乗法的にバイアスされます。DWが指摘しているように、これはポイントごとに一定数のサンプルがと区別することを意味します。nnΘ(ϵ2)22Θ(ϵ2)Θ(1(ϵ2)2)=Θ(1ϵ4)ϵ2D1D2


は、この引数の行をプッシュできる範囲であることに注意してください。具体的には、たとえばをに増やしようとしたと仮定します。一様分布では、各点の確率はです。しかし、では、各ポイントが均一に変化する必要があります。以来、それは不可能です。1ϵ4n1ϵ3ϵ3D2ϵ2.5ϵ2.5ϵ3

より抽象的には、各ポイントを均一に変化させたいとします。を設定できる最大値はです。距離を取得するには、距離の合計の平方根がであるため、であるため、したがってであり、ます。ϵkn1ϵkL2ϵϵn(ϵk)2=ϵϵk/2=ϵk=2n=1ϵ2

また、同じ引数は、距離に興味がある場合、を必要とするので、選択すると思いますなので、サンプル数はます。これは、依存しない限界として意味があると思います。として無限に近づきます。にバインドされていない距離で2つの分布を区別しようとした、無制限に大きくし、差を任意に薄く広げるので、それらを区別することはできません(Lpp>1k=pp1n=1/ϵpp11/ϵ2pp1np1L1ϵnnすなわち、すべてのに対して固定数のサンプルで十分ではありません)。また、にとしてアプローチします。ノルムでは、を設定し、すべての点をだけ異なるようにできるため、これは限界として理にかなっています。サンプルを取得する均一と異なることを確認するために、回サンプリングする必要があります。n1ϵ3pLn=1ϵΘ(ϵ)1ϵ21ϵ3


1. 各ポイントでが均一と異なることを本当に意味しますか?これはタイプミスで、を意味していると思います。D2±1/ϵ2±ϵ2
DW

1
2.とを区別するにはサンプルが必要だとは思いません。サンプルで十分のように見えます。説明(直観):サンプルを収集し、各可能な値が発生する回数をカウントするとします。それらがから来た場合、それぞれが100回発生するはずです(std dev 10を使用)。それらがから来た場合、それぞれ半分に200回(std dev 14)、残りの半分に/ 0回(std dev 0)発生します。またはを扱っていることがわかっている場合は、2つを区別するのに十分です。D1D21/ϵ4Θ(1/ϵ2)m=100/ϵ2D1D2D1D2
DW

@DW(1)そのとおりです!修繕。(2)あなたが言ったように、私は同意しますが、定数の選択が異なると難しいと思います。私はこのようなものを描いています:なので、は各点に確率を置きます。次に、は各ポイントで異なります(距離がであることを確認してください)。したがって、各ポイントに確率またはを置きます。n=1/100ϵ2D1100ϵ2D210ϵ2L2ϵ90ϵ2110ϵ2
usul

1
サンプルでまだ十分だと思います。サンプルを収集し、各値が発生する回数をカウントします。、それぞれが100万回(STD devの起こるべき)。、それぞれ900,000回(STD DEV起こるべきである)または1,100,000回(STD DEV)。1,000,000と1,100,000の差は100標準偏差、つまり巨大であるため、またはいずれかを処理していることがわかっている場合、2つを区別するのに十分です。M = 10 6 N D 1D 21000年D 1 D 2O(1/ϵ2)m=106nD11000D210001000D1D2
DW

@DW私はそれについてもっと考えました-あなたは正しいです。それらの平均が一定の乗法因子によって異なる場合、ポイントごとに一定数のサンプルがそれらを区別する必要があります。重要なのは、加法的ではなく乗法的要因です。この方法では、下限はます。1/ϵ2
usul
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.