私が取り組んでいる問題の証拠を構築しようとしています。私がしている仮定の1つは、サンプリング元のポイントのセットが空間全体にわたって密であるということです。実際には、サンプル空間全体のポイントを取得するためにラテンハイパーキューブサンプリングを使用しています。私が知りたいのは、サンプルサイズを傾向がある場合、ラテンハイパーキューブサンプルがスペース全体に密集している場合です。もしそうなら、この事実の引用は大歓迎です。
私が取り組んでいる問題の証拠を構築しようとしています。私がしている仮定の1つは、サンプリング元のポイントのセットが空間全体にわたって密であるということです。実際には、サンプル空間全体のポイントを取得するためにラテンハイパーキューブサンプリングを使用しています。私が知りたいのは、サンプルサイズを傾向がある場合、ラテンハイパーキューブサンプルがスペース全体に密集している場合です。もしそうなら、この事実の引用は大歓迎です。
回答:
短い答え:はい、確率論的な方法で。任意の距離、サンプル空間の任意の有限サブセット{ x 1、… 、x m }と所定の「許容誤差」δ > 0が与えられた場合、適切に大きなサンプルサイズの場合、次のことを確認できます。サンプル距離内の点が存在する確率εのX iがある> 1 - δ全てに対するiは= 1 、... 、M。
長い回答:直接関連する引用は知りません(ただし、以下を参照)。Latin Hypercube Sampling(LHS)に関するほとんどの文献は、その分散低減特性に関連しています。もう1つの問題は、サンプルサイズがなる傾向があるとはどういう意味ですか?単純なIIDランダムサンプリングの場合、サイズnのサンプルは、さらに独立したサンプルを追加することにより、サイズn − 1のサンプルから取得できます。LHSの場合、サンプル数は手順の一部として事前に指定されているため、これを行うことはできないと思います。だから、あなたがの連続取らなければならないであろうと思わ独立したサイズのLHSサンプル1 、2 、3 、。。。
また、サンプルサイズがなる傾向があるため、制限内の「密」を解釈する何らかの方法が必要です。密度は2次元で、あなたのサイズのLHSサンプルのシーケンス選択することができます例えばLHSのための決定論的な方法でホールドするようには思えない1 、2 、3 、。。。そのような彼らそれの対角に全てのスティック[ 0 、1 )2。したがって、何らかの確率論的定義が必要と思われます。すべてのために、聞かせて、N、X N = (X N 1、X N 2、。。
分布から独立したサンプルを取得することによってサンプルが取得される場合( 'IIDランダムサンプリング')、ここで、は半径次元ボールの体積です。したがって、確かにIIDランダムサンプリングは漸近的に密になります。 N U ([ 0 、1 )D)、P (M I nは1 ≤ K ≤ N ‖ X N K - X ‖ ≥ ε )= N Π K = 1つの P (‖ X N K - X ‖ ≥ ε )≤ (1 − v ϵ 2 − d)nv ϵ d ϵ
次に、サンプルがLHSによって取得された場合を考えます。これらのノートの定理10.1では、サンプルメンバーはすべてとして配布されると述べています。ただし、LHSの定義で使用される順列(異なる次元では独立していますが)は、サンプル()のメンバー間にある程度の依存性を誘発するため、漸近密度プロパティが成立することはあまり明白ではありません。 U ([ 0 、1 )D)X N 、K、K ≤ N
と修正します。定義します。ことを示したいと思い。これを行うには、これらのノートで提案10.3を利用できます。これは、ラテンハイパーキューブサンプリングの一種の中心極限定理です。を、が周りの半径球にある場合は定義し、そうでない場合は定義します。次に、命題10.3は、 whereおよびのx ∈ [ 0 、1 )のD P N = P (M I nは1 ≤ K ≤ N ‖ X N K - X ‖ ≥ ε )P N → 0 F :[ 0 、1 ] のD → Rの F (z )= 1 z ϵ x f (z )Y n:= √μ=∫ [ 0 、1 ] D F(Z)のDZ μ L H S = 1。
テイク。最終的に、十分に大きい、ます。したがって、最終的にはます。したがって、となります。ここで、は標準の通常のcdfです。は任意なので、必要に応じてになります。のn - √ΦLPN→0
これは、iidランダムサンプリングとLHSの両方で(上記で定義された)漸近密度を証明します。非公式に、任意の与えられたことを、この手段と任意のサンプリング空間では、サンプルは、内に到達する確率のあなたが十分に大きなサンプルサイズを選択してくださいとして1に近いとすることができます。サンプル空間の有限サブセットに適用するために、漸近密度の概念を拡張することは簡単です。有限サブセットの各点にすでにわかっていることを適用することによってです。より正式には、これは次のことを示すことができることを意味しサンプル空間のと有限サブセットについて、(as)。
これで十分かどうかはわかりませんが、これで完了です。
たとえば、からポイントをLHSサンプリングしているとします。場合、各次元のサイズの空の(ハイパー)立方体の予想される数は、としてゼロになると非常に非公式に議論します。
してみましょう我々は分裂場合ように、均一に -小さな直方体microcuboids、言う-幅の後、すべてのwidth-直方体含まれてい少なくとも1つの微小立方体。したがって、制限内で、サンプリングされていないマイクロ立方体の予想される数がゼロであることを示すことができれば、完了です。(マイクロ立方体は通常のグリッド上に配置されていますが、 -cuboidsは任意の位置に配置できます。)
サンプル座標の最初のセット(最初のサンプルポイント)は自由に選択できるため、最初のサンプルポイントで特定の微小立方体が完全に欠落する可能性は、に関係なくです。最初のいくつかのサンプルポイントがすべてその立方体を逃したとすると、後続のサンプルポイントは(平均して)見落とすことが難しくなるため、ポイントすべてが欠落する可能性は未満になります。。
には個の微小立方体があるので、見逃されている予想数は、によって制限されます。として制限のゼロ。
アップデート...
(1)次の図は、与えられたに対して、「マイクロ立方体」のグリッド(この2次元の図では正方形)が内部に少なくとも1つのマイクロ立方体を持つことを保証するのに十分な大きさのを選択する方法を示しています。任意のサイズの地域。私は2つの「ランダムに」選択された領域を示し、それらに含まれる2つの微小立方体を紫色に着色しています。
(2)特定の微小立方体を検討します。体積で、空間全体の一部です。したがって、最初のLHSサンプル(完全に自由に選択できる唯一のサンプル)は、確率見逃します。唯一の重要な事実は、これが未満の固定値(としますが、一定に保つ)であることです。
(3)次に、サンプル点のについて考えます。写真ではを示しています。LHSは、これらの超小型のサイズの「ナノ立方体」(可能であれば)の細かいメッシュで機能し、大きなでは機能しませんサイズの「微小立方体」ですが、実際にはそれは証明では重要ではありません。証明は、あなたがより多くのポイントを投げるとき、与えられたマイクロ立方体を見逃し続けるために、それが平均して徐々に難しくなるというわずかに手を振る声明を必要とするだけです。それは確率たよう最初のLHSのために不足しているポイントが、以下よりのための全てとして限界でゼロだと:それらの欠落しますn = 6 m n − 1 × n − 1 m − 1 × m − 1 1 − m − d(1 − m − d)n n n → ∞ 。
(4)これらすべてのイプシロンは証明には適していますが、直感には適していません。したがって、とサンプルポイントを示すいくつかの写真は、最大の空の長方形領域が強調表示されています。(グリッドはLHSサンプリンググリッドです。前に参照した「ナノ立方体」です。)最大の空の領域がサンプルポイントのとして任意の小さなサイズに縮小されることは(明白な直感的な意味で)「明白」である必要があります。n = 50 n → ∞