ラテンハイパーキューブサンプリングの漸近


11

私が取り組んでいる問題の証拠を構築しようとしています。私がしている仮定の1つは、サンプリング元のポイントのセットが空間全体にわたって密であるということです。実際には、サンプル空間全体のポイントを取得するためにラテンハイパーキューブサンプリングを使用しています。私が知りたいのは、サンプルサイズを傾向がある場合、ラテンハイパーキューブサンプルがスペース全体に密集している場合です。もしそうなら、この事実の引用は大歓迎です。


4
いずれかのためはい、連続分布を仮定してϵ>0あなたはすべての変数ごとの間隔は幅があることなどであることを分割数を設定することができます<ϵ/2。したがって、少なくとも1つのハイパーインターバル(つまり、サンプルボリューム)は、選択した任意のポイントの周りの幅ϵハイパーキューブによって厳密に含まれます。(LHSについて私が知っているのは10分前のWikipediaからのものなので、回答ではなくコメントです。)
Creosote、2015年

これは事実ですが、大きなラテンハイパーキューブサンプルの密度を示すために簡単に使用できるとは思いません。これは、LHSのサンプルポイントが独立していないためです。特定のハイパーインターバル内にサンプルポイントが存在すると、他のサンプルポイントが同じ行/列に表示されなくなります(または多次元の用語がこれに該当します)。 。
S.キャタロールがモニカを復活させる'19 / 11/15

@Creosoteあなたはあなたの答えをもっと形式化できると思いますか?

@RustyStatistician、オープニングポストを展開して、証明の必要に応じて、「サンプリングしているポイントのセットが空間全体に密集している」とはどういう意味かを正式に説明してください。ありがとう。
Creosote

が非常に大きい最初のラテンハイパーキューブサンプルを取得した場合、それは無限大と見なされます。そのサンプルは密集していますか?」n

回答:


6

短い答え:はい、確率論的な方法で。任意の距離、サンプル空間の任意の有限サブセット{ x 1x m }と所定の「許容誤差」δ > 0が与えられた場合、適切に大きなサンプルサイズの場合、次のことを確認できます。サンプル距離内の点が存在する確率εX iがある> 1 - δ全てに対するiは= 1 ... Mϵ>0{x1,,xm}δ>0ϵxi>1δi=1,,m

長い回答:直接関連する引用は知りません(ただし、以下を参照)。Latin Hypercube Sampling(LHS)に関するほとんどの文献は、その分散低減特性に関連しています。もう1つの問題は、サンプルサイズがなる傾向があるとはどういう意味ですか?単純なIIDランダムサンプリングの場合、サイズnのサンプルは、さらに独立したサンプルを追加することにより、サイズn 1のサンプルから取得できます。LHSの場合、サンプル数は手順の一部として事前に指定されているため、これを行うことはできないと思います。だから、あなたがの連続取らなければならないであろうと思わ独立したサイズのLHSサンプル1 2 3 nn11,2,3,...

また、サンプルサイズがなる傾向があるため、制限内の「密」を解釈する何らかの方法が必要です。密度は2次元で、あなたのサイズのLHSサンプルのシーケンス選択することができます例えばLHSのための決定論的な方法でホールドするようには思えない1 2 3 そのような彼らそれの対角に全てのスティック[ 0 1 2。したがって、何らかの確率論的定義が必要と思われます。すべてのために、聞かせて、NX N = X N 1X N 21,2,3,...[0,1)2nXn=(Xn1,Xn2,...,Xnn)nnϵ>0x[0,1)dP(min1knXnkxϵ)0n

分布から独立したサンプルを取得することによってサンプルが取得される場合( 'IIDランダムサンプリング')、ここで、は半径次元ボールの体積です。したがって、確かにIIDランダムサンプリングは漸近的に密になります。 N U [ 0 1 D)、P M I nは1 K NX N K - X ε = N Π K = 1つの P X N K - X ε 1 v ϵ 2 dnXnnU([0,1)d)v ϵ d ϵ

P(min1knXnkxϵ)=k=1nP(Xnkxϵ)(1vϵ2d)n0
vϵdϵ

次に、サンプルがLHSによって取得された場合を考えます。これらのノートの定理10.1では、サンプルメンバーはすべてとして配布されると述べています。ただし、LHSの定義で使用される順列(異なる次元では独立していますが)は、サンプル()のメンバー間にある程度の依存性を誘発するため、漸近密度プロパティが成立することはあまり明白ではありません。Xn U [ 0 1 DX N 、KK NXnU([0,1)d)Xnk,kn

と修正します。定義します。ことを示したいと思い。これを行うには、これらのノートで提案10.3を利用できます。これは、ラテンハイパーキューブサンプリングの一種の中心極限定理です。を、が周りの半径球にある場合は定義し、そうでない場合は定義します。次に、命題10.3は、 whereおよびのx [ 0 1 のD P N = P M I nは1 K NX N K - X ε P N0 F [ 0 1 ] のDRの F z = 1 z ϵ x f z ϵ>0x[0,1)dPn=P(min1knXnkxϵ)Pn0f:[0,1]dRf(z)=1zϵxY n= f(z)=0μ= [ 0 1 ] D FZのDZ μ L H S = 1Yn:=n(μ^LHSμ)dN(0,Σ)μ=[0,1]df(z)dzμ^LHS=1ni=1nf(Xni)

テイク。最終的に、十分に大きい、ます。したがって、最終的にはます。したがって、となります。ここで、は標準の通常のcdfです。は任意なので、必要に応じてになります。のn - L>0nnμ<LPn=P(Yn=nμ)P(Yn<L)ΦLPN0lim supPnlim supP(Yn<L)=Φ(LΣ)ΦLPn0

これは、iidランダムサンプリングとLHSの両方で(上記で定義された)漸近密度を証明します。非公式に、任意の与えられたことを、この手段と任意のサンプリング空間では、サンプルは、内に到達する確率のあなたが十分に大きなサンプルサイズを選択してくださいとして1に近いとすることができます。サンプル空間の有限サブセットに適用するために、漸近密度の概念を拡張することは簡単です。有限サブセットの各点にすでにわかっていることを適用することによってです。より正式には、これは次のことを示すことができることを意味しサンプル空間のと有限サブセットについて、ϵxϵxϵ>0{x1,...,xm}min1jmP(min1knXnkxj<ϵ)1(as)。n


2つの質問があります。1)サイズサンプルでが大きい場合、引数は変わりますか?そして2)ラテン超方格標本は任意の範囲の値(必ずしも(0,1)だけではない)にある可能性があるので、それも答えを変えますか?nn

また、十分に大きいにを使用する理由を説明してもらえますか?これは、が大きい、がゼロになることを意味します。これは、分布ではです。nN μ L H S N0Σnμnμ^LHSN(0,Σ)

@RustyStatisticianすべてが有限のサンプル、つまりで定義されますが、サイズは大きくなります。何が起こっているのかを説明するために、最後にいくつかの説明を追加しました。サンプル空間の体積が有限である限り、他の値の範囲に簡単に対応できます((0,1)は特別ではありません)。n<
S. Catterallがモニカを復活させる'19

簡単な答えを詳しく説明できますか?

@RustyStatistician短い答えは私の長い答えの非公式な要約であり、これはあなたが同意するものだと思いますが、すでにかなり精巧です!したがって、上記で提案したように、質問をより正式な言葉で書き直して、私の意図した答えが(意図した質問への回答に関して)正しい方向に進んでいるかどうかがわかるようにするとよいでしょう。
S.キャタロールがモニカを2015

3

これで十分かどうかはわかりませんが、これで完了です。

たとえば、からポイントをLHSサンプリングしているとします。場合、各次元のサイズの空の(ハイパー)立方体の予想される数は、としてゼロになると非常に非公式に議論します。n[0,1)dϵ>0ϵn

してみましょう我々は分裂場合ように、均一に -小さな直方体microcuboids、言う-幅の後、すべてのwidth-直方体含まれてい少なくとも1つの微小立方体。したがって、制限内で、サンプリングされていないマイクロ立方体の予想される数がゼロであることを示すことができれば、完了です。(マイクロ立方体は通常のグリッド上に配置されていますが、 -cuboidsは任意の位置に配置できます。)m=2/ϵ[0,1)dmd1/mϵnϵ

サンプル座標の最初のセット(最初のサンプルポイント)は自由に選択できるため、最初のサンプルポイントで特定の微小立方体が完全に欠落する可能性は、に関係なくです。最初のいくつかのサンプルポイントがすべてその立方体を逃したとすると、後続のサンプルポイントは(平均して)見落とすことが難しくなるため、ポイントすべてが欠落する可能性は未満になります。。1mdndn(1md)n

には個の微小立方体があるので、見逃されている予想数は、によって制限されます。として制限のゼロ。md[0,1)dmd(1md)nn


アップデート...

(1)次の図は、与えられたに対して、「マイクロ立方体」のグリッド(この2次元の図では正方形)が内部に少なくとも1つのマイクロ立方体を持つことを保証するのに十分な大きさのを選択する方法を示しています。任意のサイズの地域。私は2つの「ランダムに」選択された領域を示し、それらに含まれる2つの微小立方体を紫色に着色しています。ϵmm×m ϵ×ϵϵ×ϵ

ここに画像の説明を入力してください

(2)特定の微小立方体を検討します。体積で、空間全体の一部です。したがって、最初のLHSサンプル(完全に自由に選択できる唯一のサンプル)は、確率見逃します。唯一の重要な事実は、これが未満の固定値(としますが、一定に保つ)であることです。(1/m)dmd1mdnm1

(3)次に、サンプル点のについて考えます。写真ではを示しています。LHSは、これらの超小型のサイズの「ナノ立方体」(可能であれば)の細かいメッシュで機能し、大きなでは機能しませんサイズの「微小立方体」ですが、実際にはそれは証明では重要ではありません。証明は、あなたがより多くのポイントを投げるとき、与えられたマイクロ立方体を見逃し続けるために、それが平均して徐々に難しくなるというわずかに手を振る声明を必要とするだけです。それは確率たよう最初のLHSのために不足しているポイントが、以下よりのための全てとして限界でゼロだと:それらの欠落しますn = 6 m n 1 × n 1 m 1 × m 1 1 m d1 m dn n n n>mn=6mn1×n1m1×m11md(1md)n nn

(4)これらすべてのイプシロンは証明には適していますが、直感には適していません。したがって、とサンプルポイントを示すいくつかの写真は、最大の空の長方形領域が強調表示されています。(グリッドはLHSサンプリンググリッドです。前に参照した「ナノ立方体」です。)最大の空の領域がサンプルポイントのとして任意の小さなサイズに縮小されることは(明白な直感的な意味で)「明白」である必要があります。n = 50 n n=10n=50n

ここに画像の説明を入力してください


この議論は一般的な間隔で成立しますか?代わりに?[0,1)

はい、有限の次元に対して。証明を修正したので、もっとはっきりしているはずです。
Creosote 2015年

この証明の1次元または2次元の画像を提供することは可能ですか?私はそれにかなり迷っています。

できました。必要に応じて、さらに質問させていただきます。
Creosote、2015

素晴らしいです、ありがとう!これは間違いなく直感に役立ちます。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.