「メディアントリック」をより高い次元に一般化する?


21

無作為化アルゴリズムのための実数値をとり、「メジアントリック」は、任意の閾値と故障の確率を低減するための簡単な方法であるδ > 0だけ乗算のコストで、T = O ログ1Aδ>0オーバーヘッド。場合すなわち、Aの出力が『良好範囲』に該当するIは=[B](少なくとも)確率で2/3次に、独立したコピー実行中、A1...Tを、その出力の平均を取ります1...tはに落ちた値になりますI、少なくとも確率で1-δチャーノフ/ Hoeffdingの境界によります。t=O(log1δ)AI=[a,b]2/3A1,,Ata1,,atI1δ

この「トリック」をより高い次元、たとえばに一般化して、良好な範囲が凸集合(またはボール、または十分に素晴らしく構造化された集合)になりましたか?すなわち、A無作為化アルゴリズムを考えると、あるA出力の値のR D、および"良好な集合" S R DようにPを R { AX R S } 2 / 3のすべてのためのx、どのように高めることができ1 - δへの成功の確率RdARdSRdPr{A(x,r)S}2/3x1δ対数コストのみ1/δ

(言葉で表現は異なる:arbirary、固定された所定の1... TRと Dを保証その少なくとも有する2 Ta1,,atRdai 3Sに属しますが、Sから値を出力する手順はありますか?もしそうなら、効率的なものはありますか?)2t3aiSS

また、上記を実現するためにに必要な仮定の最小セットは何ですか?S

これが些細なことが判明した場合は申し訳ありません-この質問に関する参照を見つけることができませんでした...


3
が直方体である特別な場合、各次元で中央値トリックを個別に使用すると機能しますか?したがって、多数のポイントをサンプリングし、次元1、2、...、dの座標の中央値を取得してから、R dのポイントを取得します。この戦略ではO log d / ϵ サンプルが必要になるでしょうか?SRdO(log(d/ϵ))
ロビンコタリ

1
1次元の場合には、通常、あなたが知っているではなく、正確な間隔(あなたが知っていない場合でも、ただしbは-中央トリックはまだ動作しますが)。私たちはSを知っているが、翻訳までしかないと仮定すべきですか?翻訳とスケーリングまで?babaS
サショニコロフ

@SashoNikolovこれは実際に最も「一般的な一般化」になると思います(たとえば、が「直径εの良い球」であることがわかっているだけです)。Sε
クレメントC.

1
トーマスが答えで書いたものはさらに一般的です。彼は、(彼の答えではG)が未知の凸集合であると仮定しています。SG
サショニコロフ

回答:


17

探しているのはほぼ同じ堅牢な 中心傾向です。データポイントのクラウドを単一のポイントに減らす方法です。これにより、多くのデータポイントがいくつかの「グランドトゥルース」に近いが残りは任意に遠く離れている場合、出力もグラウンドトゥルースに近くなります。このような方法の「ブレークダウンポイント」は、許容できる任意に悪い外れ値の割合です。違いは、あなたの場合、「に近い」を「の凸包内」に置き換えることです。

これをキャプチャする1つの方法は、Tukey深度の概念を使用することです。指定されたポイントを含むすべての半空間に少なくともp n個のデータポイントが含まれている場合、ポイントにはTukeyの深さn個のデータポイントのセットに関して)があります。内側にしたい良好な凸部分空間がある場合、その中に少なくとも1 p n個のデータポイントがある限り、Tukey深さpの点はその内側になります。したがって、このメソッドのブレークダウンポイントは、到達可能なpの最大値です。pnpnp(1p)np

残念ながら、この内訳点はであり、Tukeyの深さおよび問題の両方で1/2に近い値ではありません。その理由は次のとおりです。データがシンプレックスのd + 1頂点の近くにクラスター化されている場合、それらの1 /d + 1 未満の部分が外れ値である限り(ただし、どの頂点が不明か)シンプレックスは常に非外れ値の凸包内にあるため、選択しても安全です。ただし、1 /d + 1 )を超える場合1/(d+1)d+11/(d+1)1/(d+1) 点の外れ値になる可能性があり、選択できる安全な場所はありません。選択したシンプレックス内のいずれの点でも、外れ値は最も近いシンプレックス頂点からのすべての点になり、非-外れ値。

ような、より悪いブレークダウンポイントを容認する場合は、ndの両方の多項式である深いポイントを見つけるためのランダム化された方法があります:私の論文を参照してくださいO(1/d2)nd

反復ラドンポイントによる中心点の近似、K。クラークソン、D。エップスタイン、GLミラー、C。スチュリバント、およびS.-H. テン、 第9回ACM Symp。比較 Geom。、サンディエゴ、1993、pp。91–98、 Int。J. Comp。Geom。&Appl。6(3):357–377、1996、http://kenclarkson.org/center/p.pdf


うん。さらに、eps-nets、eps-approximations、およびそれらのさまざまな友人を使用して、このような深度測定値に近似する小さなサンプルを取得できることにも言及します。単一のポイントは得られませんが、より多くの情報が得られます。
サリエルハーペレ

論文の用語で、検証するための効率的な方法は知られていますか 主張有理数のため-centerをβββ

「効率的」とは、次元の多項式を意味する場合、そのような結果はわかりません。私の論文は1点しか見つけませんが、深さの空間分布に関する詳細情報は提供しません(サリエルが上記を暗示しているなど)。
デビッドエップシュタイン

ありがとうございました!(今のところ)効率の考慮は別として、これは、任意の凸集合の一般的な場合には、一定の確率を任意の確率に押し上げる方法がないと言っているように見えますか?(良い点の割合は1 1より大きい必要があるため?それは我々が手に持っているでしょう「独立した繰り返し、」、という考え方捕捉しない第二の製剤I aveのように感じて、それを振り返って- (または私が何かを見逃していたいくつかの少なくとも持つそれぞれの点の集合を、2/3良い点の割合)。11d+12/3
クレメントC.

1
知っているのが凸集合が存在するが存在しないことだけであり、正しい集合にいる確率をd /(d + 1)、シンプレックスの例を回避するには、良い点の割合が少なくともd /(d + 1)である必要があります。それ以外の場合、敵はシンプレックスの形式でデータを提供し、シンプレックスの1つの面のイプシロン近傍を凸集合としてランダムに選択できます。シンプレックスの頂点に近い点をランダムに推測しても、少なくとも1 /(d + 1)の確率で間違った選択をすることになります。
デビッドエップスタイン

14

これはきちんとした質問であり、私はそれについて以前に考えました。ここに私たちが思いついたものがあります:

あなたは、アルゴリズムの実行の出力を得るために時間をX 1X のnRの dは、あなたは、高い確率でどのような大きな部分を知っているのx Iいくつかの良いセットにsの秋をGGが何であるかはわかりませんが、凸であるというだけです。良いニュースは、Gについてそれ以上の情報なしでポイントを取得する方法があるということです。この点をf x 1x n)と呼びます。nx1,,xnRdxiGGGf(x1,,xn)

定理。すべての自然数およびdについて、関数fが存在しますR d nR dは、以下が成り立つようなものです。レッツは、xは1X NRの Dおよびlet G Rは、 dは満足凸集合である1ndf:(Rd)nRdx1...xnRdGRd次いで、FX1XのNG。さらに、fndの時間多項式で計算できます。
1n|{i[n]:xiG}|>dd+1.
f(x1,...,xn)Gfnd

場合、fを中央値に設定できることに注意してください。したがって、これはd > 1の中央値を一般化する方法を示しています。d=1fd>1

この結果を証明する前に、とし、x 1x dを標準基底要素とし、x d + 1 = 0とします。ポイントのdのサブセットは、次元d 1のアフィン空間G(これらのポイントによって一意に定義される)に含まれます。しかし、これらのアフィン空間のすべてにポイントは含まれていません。したがって、いくつかの凸あるG含まN D /D +をn=d+1x1,,xdxd+1=0dGd1Gポイントですが、 f x 1x n)を含みません。nd/(d+1)=df(x1,,xn)

証明。次の結果を使用します。

ヘリーの定理。してみましょうR dの凸部分集合です。d + 1 K i sの交点が空でないと仮定します。この場合、すべてのK i sの共通部分は空ではありません。K1...KmRdd+1 KiKi

ヘリーの定理の証明については、ここをクリックしてください。

ここで定理を証明します:

ましょう上部の点ではない数に拘束されることG。すべての閉じた半空間K 1を考えますK MRの D少なくとも含むN - Kのそれらそれらの境界が最大ランクの点の集合を含有する点(これは各としてhalfspacesの有限数であるK iは、によって定義されるD + 1つの境界上の点)。k<n/(d+1)GK1...KmRdnkKid+1

の補数には最大でk個のポイントが含まれます。ユニオン境界により、任意のd + 1 K i sの交点には少なくともn k d + 1 > 0ポイントが含まれます。ヘリーの定理(半空間は凸であるため)により、すべてのK i sの交点に点があります。我々は、聞かせてFはの交差点内の任意の点計算する関数であるK iは秒。Kikd+1 Kink(d+1)KisfKi

残っているのは、 sの交差がGに含まれていることを示すことだけです。KiG

一般性を失うことなく、はフルランクのポイントのサブセットの凸包です。つまり、Gを、含まれているポイントの凸包で置き換えることができます。これにフルランクがない場合、低次元で定理を単純に適用できます。GG

各面は半空間を定義します。ここで、Gはこれらの半空間の交点です。これらの各半空間にはGが含まれているため、少なくともn k個の点が含まれています。これらの半空間の1つの境界には、Gの面が含まれているため、最大ランクの点のセットが含まれています。したがって、これらの各半空間はK iです。したがって、必要に応じて、すべてのK iの交点がGに含まれます。GGGnkGKiKiG

を計算するには、線形制約がK i sに対応し、実行可能な解がすべてのK i sの交差点に対応する線形プログラムを設定します。 QEDfKiKi

残念ながら、この結果は高次元の設定ではあまり実用的ではありません。良い質問は、より効率的に計算できるかどうかです。f

未解決の問題。上記の定理を、ndの時間多項式でを計算できるという追加の結論で証明します。 fnd

x1,,xnB(y,ε)zB(y,3ε)ndz=xiiB(z,2ε)


David Eppsteinが以下に概説するように、基本的にTukeyの深さを再発明したと思います:)
Suresh Venkat

7

さまざまな名前で知られている高次元および一般的な標準の点のセットの中央値の概念があります。セット内のすべてのポイントまでの距離の合計を最小化するのは、ポイントだけです。距離のわずかな乗法的増加を伴う通常の中央値と同様の信頼性増幅特性を持つことが知られています。詳細については、このペーパーの定理3.1を参照してください。http//arxiv.org/pdf/1308.1334.pdf

このホワイトペーパーが示す良い点の1つは、距離が増加する要因は、任意の高い(ただし定数<1)信頼度から増幅できる場合、1を超える定数にできることです。

編集:スーによってトピックに関する他の最近の論文があるとサバトhttp://arxiv.org/pdf/1307.1827v6.pdf それは主に分析し、手続きを適用するもので、残りの最小の中央値の距離とセットでのポイントポイントの使用されます。この手順はどのメトリックでも使用できますが、近似係数は3のみです。


Sp

1
あんまり。結果は、すべてのバナッハ空間について記載されています。原点を中心とし、その中心を中心に対称的なボディには、このボディが単位球である対応する規範があります。あなたの質問の目的のために、一般性を失うことなく、凸体が原点中心であると仮定できるので、すべての中心対称凸体について結果が得られます。おそらく、いくらかの穏やかな努力で、結果は一般的な凸体に拡張できます。
ヴィタリー

1
ただし、ノルムの最小化を計算するには、ノルムを知る必要があります。ノルムがあることだけを知っていて、それが何であるかを知らない場合、運が悪くなります。
デビッドエップシュタイン

1
あなたは正しい、デビッド。あなたは規範を知る必要があります。(これは、中心までの凸体とスケーリングを知ることに変換されます)。
ヴィタリー

X0.9(1,0)(+1,0)0.1(0,0.0001)(1,0)(1,0)(0,0.0001)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.