次元の2つのランダムな単位ベクトルのスカラー積の分布


27

場合と内の2つの独立したランダムな単位ベクトルでありそれらのスカラー積(内積)の分布が何であるか(均一単位球面上に分布)、?、Y のR D XYバツyRDバツy

ように私は推測迅速に配布を成長より高い次元でゼロと正常になる平均及び分散減少(?)しかしのための明示的な公式がある\ sigma ^ 2(D)D

リムDσ2D0
σ2D

更新

簡単なシミュレーションをいくつか実行しました。最初に、D = 1000のランダムな単位ベクトルの10000ペアを生成D=1000すると、それらのドット積の分布が完全にガウス分布であることが簡単にわかります(実際、すでにD = 100の場合はかなりガウス分布ですD=100)。左側のサブプロットを参照してください。次に、1から10000までの各Dに対してD(ステップを増やしながら)1000ペアを生成し、分散を計算しました。ログ-ログプロットは右側に示されており、式が1 / Dで非常によく近似されていることは明らかです1/DD=1およびD=2この式で正確な結果が得られることにも注意してください(ただし、後で何が起こるかわかりません)。

ランダム単位ベクトル間の内積


@KarlOskar:ありがとう、このリンクは非常に関連性があり、実際、私の質問はほとんど重複していますが、完全ではありません。したがって、明示的な公式があります。これは内積の累積分布関数です。導関数を使用してPDFを取得し、制限調べることができます。ただし、式はベータ関数と不完全なベータ関数の観点から与えられているため、計算は厄介である可能性があります。D P{バツy>ϵ}D
アメーバは2014

@KarlOskar:の単位球面上の一様分布から。この分布からランダムなベクトルを生成するには、単位分散のあるガウス分布からランダムなベクトルを生成し、それを正規化できます。RD
アメーバは2014

回答:


30

よく知られているように)変量正規分布を正規化することで単位球上の均一分布 が得られ、正規化ベクトルの内積はそれらの相関係数であるため、3つの答えは質問は次のとおりです。 D tSD1Dt

  1. D 1 / 2 D 1 / 2 u=(t+1)/2にはベータ分布があります。((D1)/2,(D1)/2)

  2. の分散は等しくなります(質問で推測されます)。1 / Dt1/D

  3. の標準化された分布は、割合で正規性に近づきO 1tO(1D).


方法

単位ベクトルのドット積の正確な分布は、幾何学的に簡単に取得できます。これは、これが最初の方向の2番目のベクトルの成分だからです。2番目のベクトルは1番目のベクトルから独立しており、単位球に均一に分布しているため、第1方向の成分は球の座標と同じように分布します。(最初のベクトルの分布は重要ではないことに注意してください。)

密度を見つける

したがって、その座標を最後にすると、での密度は、単位球上のと間の高さにある表面積に比例します。その割合は、高さおよび半径ベルト内で発生しますこれは、基本的に半径のから構成される円錐台です高さおよび勾配。確率はそれに比例しますT 、T + D Tt[1,1]tt+dtdtS D - 2 1t2,SD2dt1/1t2dt1/1t2

1t2D21t2dt=1t2D3/2dt

まかせ伴う。これを上記の値に代入すると、確率要素が正規化定数になります。T = 2 U - 1あなたは=t+1/2[01]t=2あなたは1

fDあなたはdあなたは12あなたは12D3/2d2あなたは1=2D2あなたはあなたは2D3/2dあなたは

がベータ分布を持っているのは即座ですなぜなら、(定義により)その密度もD 1 / 2 D 1 / 2 あなたは=t+1/2D1/2D1/2

あなたはD1/211あなたはD1/21=あなたはあなたは2D3/2fDあなたは

制限動作の決定

基本的な手法を使用して制限動作に関する情報が簡単に得られますを統合して、比例定数を取得できます ; を統合して(たとえばベータ関数のプロパティを使用して)モーメントを取得し、分散がで縮小することを示し(したがって、チェビシェフの定理により、確率は付近に集中します); そして、制限分布は、比例する標準化された分布の密度の値を考慮して、Γ nはfDtkfDt1/D0t=0fDt/Γn2πΓD12tkfDt1/D0t=0tfDt/Dt

ログfDt/D=CD+D32ログ1t2D=CD1/2+32Dt2+Ot4DC12t2

ここで、は積分の(ログ)定数を表します。明らかにこれが正規性に近づく速度(対数密度が等しい)は1CO112t2O1D

図

このプロットは、単位分散に標準化された 4、6、10の内積の密度とそれらの限界密度を示しています。の値は、とともに増加します(標準の標準密度では、青から赤、金、そして緑へと変化します)。濃度、この解像度で通常の密度と区別できないであろう。0 D D = 1000年D=46100DD=1000


4
(+1)@whuber、ありがとうございます。これは素晴らしい答えです!「フラスタム」という言葉に言及してくれてありがとう。あなたがあなたの質問を投稿するほんの数分前に別の回答を受け入れたことがたまたまあるので、今はそれを受け入れたくありません。ご理解いただければ幸いです。残念ながら、両方を受け入れることはできません!ちなみに、その答えからの分散の式の非常に単純な証明に注意してください。ベータ関数をいじることなく直接見ることができます!ドット積の分散は(記述したように)任意の球座標の分散に等しく、それらのすべてのの合計はである必要があります、QEDD 11/DD1
amoebaが2014

1
これは、分散に関する素晴らしい観察です。
whuber

2
@amoeba、最近の活動もまたここに再び注目を集めました。あなたが私の答えを受け入れてくれたことに感謝しますが、この方がはるかに充実しています。あなたが変わっても私は全く気にしません。
ekvall

1
@ Student001:これは公平で寛大なコメントです。受け入れられた答えを切り替えました。私はあなたの1人のQと1人のAがそれを補うために賛成票を投じるのを見つけました:)
アメーバは、Reinstate Monica

1
分布@matであるの。これにより、間隔から間隔スケーリングおよびシフトされたベータ分布になります。2 U - 1 [ 0 1 ] 、[ - 1 1 ]t2U1[0,1][1,1]
whuber

11

分布を見つけて、標準結果による分散を求めましょう。ベクトル積を考慮して、コサイン形式で記述します。つまり、ここではと間の角度です。最後のステップで、イベントとそれを使用しましたここで、用語考えます。は球体表面に対して均一に選択されるため、どのでも問題ないことは明らかです。θ X Y A B E P A B = E [ E [ χ

Pバツyt=P|バツ||y|cosθt=Pcosθt=EPcosθty
θバツyAB P COS θ T | Y X 、Y 、X 、Y 、Y 、Y = [ 1 0 0 ... ] 'P X '、Y T = P X 1T x 1
EP(AB):=E[E[χAB]]=EχA=P(A).
P(cosθty)xy実際は、と間の角度だけが重要です。したがって、期待値内の項は実際には関数として一定であり、と仮定することができ次に、を取得しただし、は正規化されたガウスベクトルの最初の座標である ため、この論文の漸近結果を呼び出すことにより、は分散ガウスです。xyyy=[1,0,0,].
P(xyt)=P(x1t).
x1 x y1 / nRn,xy1/n

分散の明示的な結果については、内積が独立によって平均ゼロであり、上記のように最初の座標のように分布するという事実を使用します。これらの結果から、を見つけることはを見つけることになります。ここで、構造であるため、ここで最後の等式はの座標が同じように分布していることから続きます。まとめると、Var x y E x 2 1 x x = 1 1 = E x x = E n i = 1 x 2 i = n i = 1 E x 2 i = n E x 2 1x Var x y = E x 2 1xVar(xy)Ex12xx=1

1=Exx=Ei=1nxi2=i=1nExi2=nEx12,
xVar(xy)=Ex12=1/n

ありがとう、しかし私は混乱している:正確に「望ましい結果」とは何であり、それは最後の方程式からどのように続くのか?最終的な確率分布は依存する必要があります。D
アメーバは2014

実際、最後の方程式の結果がどのように続くかは、見つけたmath.SEスレッドで説明されているとおりです。これにはベータ分布などが含まれ、制限の動作は(私には)明らかではありません。を確認するためのより簡単な直接的な方法があるはずです。σ2D1/D
アメーバは、モニカーを復活させる14

であるため、次元に依存します。ここで、は生成されたガウスベクトルです。答えは今日または明日後で更新します。 zバツ1=z1|z|1z
ekvall 14

球が半径持っている場合:うわー、あなたの最後のリンクは推論を完了するために、ページ1だから、上の第三式(Iが計算するために恐れていた)逆ベータ関数を含むその表現の限界に偉大な提供、次いで(漸近的に)として配布され。これは、単位半径の球体の分散が倍小さい、つまりことを意味します。しかし、私にはまだ懸念があります:1から4までのをチェックし、D = 1またはD = 2の分布が正規から非常に離れているにもかかわらず、は正確な分散を与えるようです。その背後にはもっと深い理由があるはずです。 X1N01D1/DD1/DDバツ1N01D1/DD1/D
アメーバは、モニカを復活させる14

@amoebaはい、その証拠で更新されました。
ekvall 14

2

質問の最初の部分に答えるには、ます。定義 要素 の積ここでとして示されるとのは、と共同分布に従って分布されます。 その後、 、F Z IZ I= - F Z 1... Z DZ 1... Z DZ=バツY=バツYi t h X

fZz=fZ1ZDz1zDdz
thバツZ I X 、I Y 、I 、F Z IZ I= - F X IY IX Z IYZバツY
fZz=fバツYバツzバツ1|バツ|dバツ
Z=Z
fZz=fZ1ZDz1zdδzzdz1dzd

2番目の部分については、漸近的な動作について興味深いことを言いたい場合は、少なくともと独立性を仮定してから、CLTを適用する必要があると思います。σバツY

例えば、がおよびたい場合およびと言い。{Z1ZD}E[Z]=μV[Z]=σ2σ2D=σ2DリムDσ2D=0


ありがとう、しかし私は第二部について混乱しています。とはもちろん独立しているはずですが、これを質問に追加します。と言いますが、それは理にかなっていますが、の漸近的な振る舞いは何ですか?私が探している表現はのみに依存すべきだと思います。2Dでところで、私は間違っていないです場合は、より高い次元での真のこの遺跡...場合、私は疑問に思うYは、σ 2D = V RZ I/ D V RZ IDをバツYσ2D=Varz/DVarzDVarz=1/2
アメーバが復活モニカ言う

とが単位長さであるという要件がある場合、を独立させることは本当に可能ですか? X YzバツY
ekvall 14

@tom:ところで、私があった間違っ:2Dに 1であり、それは等しい1/2です。いくつかのシミュレーション結果で質問を更新しました。正しい式はです。V a rz 1 / DVarzVarz1/D
アメーバは、モニカを復活させる14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.