壊れたスティックの最大の断片の分布(間隔)


21

長さ1のスティックを、ランダムに一様に断片に分割します。最も長いフラグメントの長さの分布は何ですか?k+1

より正式には、をIIDとし、関連する順序統計、つまり単純に順序付けします。そのような方法で試料。ましょう。うん1うんkうん01うん1うんkU(1)U(2),,U(k)Zk=最大うん1うん2うん1うんkうんk11うんk

Z_kの分布に興味がありますZk。モーメント、漸近結果、またはk \ uparrow \ inftyの近似kも興味深いものです。


9
これはよく研究された問題です。R. Pyke(1965)、「Spacings」、 JRSS(B) 27:3、pp。395-449を参照してください。誰かが私に打ち負かさない限り、後で情報を追加するために戻ってきます。同じ著者による1972年の論文もあります( " Spacings revisited ")が、あなたが望んでいるのは最初のほとんどすべてだと思います。Devroye(1981)の等間隔の順序統計の反復対数の法則」にいくつかの漸近現象があります。プロバブ。9:5、860-867。
Glen_b -Reinstate Monica

4
また、必要に応じて後の作品を見つけるための優れた検索用語を提供する必要があります。
Glen_b-モニカの復職

3
これはすごい。最初の参照を見つけるのは難しいです。興味のある方のために、私はそれをThe Grand Locusに載せました。
gui11aume

ミスプリントを修正してください:U _ {(k)}の代わりにY _ {(k)}Ykうんk
ビクトル

ありがとう@Viktor!このような小さなことについては、自分で編集することをためらわないでください(承認のために他のユーザーによってレビューされると思います)。
gui11aume

回答:


18

@Glen_bから提供された情報で、答えを見つけることができました。質問と同じ表記法を使用する

PZkバツ=j=0k+1k+1j1j1jバツ+k

ここa+=a場合a>00そうでありません。また、Gumbel(NB:Betaではなく)分布に期待と漸近収束を与えます

EZk=1k+1=1k+11ログk+1k+1PZkバツexpek+1バツ+ログk+1

証拠の資料は、参考文献にリンクされているいくつかの出版物から取られています。それらはやや長めですが、簡単です。

1.正確な分布の証明

してみましょう区間内のIID一様ランダム変数である。それらを順序付けることにより、と示される順序統計 を取得します。は、として定義され、およびです。順序付けられた間隔は、対応する順序付けられた統計です。対象の変数はです。0 1 、K U 1 ... U K Δ I = U I - U I - 1 U 0 = 0 U K + 1 = 1 Δ 1 うん1うんk01kうん1うんk=うんうん1うん0=0うんk+1=1 Δ K + 1 1k+1k+1

固定場合、インジケーター変数を定義します。対称性により、ランダムベクトルは交換可能であるため、サイズサブセットの共同分布は、次の共同分布と同じです。最初の。製品を拡張することにより、こうして得られます1 iは = 1 { Δ I > X }1 1... 1 、K + 1jはjはバツ011=1{>バツ}111k+1jj

Pk+1バツ=E=1k+111=1+j=1k+1k+1j1jE=1j1

であることを証明します。これにより、上記の分布が確立されます。一般的な場合も同様に証明されるため、についてこれを証明します。 j = 2E=1j1=1jバツ+kj=2

E(i=121i)=P(Δ1>xΔ2>x)=P(Δ1>x)P(Δ2>x|Δ1>x).

場合、ブレークポイントは、間隔にある。このイベントの条件付きで、ブレークポイントはまだ交換可能であるため、2番目と1番目のブレークポイント間の距離がよりも大きい確率は、最初のブレークポイントと左バリア(距離)間の距離と同じ確率ですよりも大きい。そうK X 1 X X XΔ1>xk(x,1)xxx

P(Δ2>x|Δ1>x)=P(all points are in (2x,1)|all points are in (x,1)),soP(Δ2>xΔ1>x)=P(all points are in (2x,1))=(12x)+k.

2.期待

サポートが有限のディストリビューションの場合、

E(X)=P(X>x)dx=1P(Xx)dx.

分布積分、我々が入手しますΔ(k+1)

E(Δ(k+1))=1k+1j=1k+1(k+1j)(1)j+1j=1k+1j=1k+11j.

最後の等式は、調古典的な表現です。これを以下に示します。Hi=1+12++1

Hk+1=011+バツ++バツkdバツ=011バツk+11バツdバツ

変数を変更し、製品を展開すると、次のようになります。あなたは=1バツ

Hk+1=01j=1k+1k+1j1j+1あなたはj1dあなたは=j=1k+1k+1j1j+1j

3.等間隔の代替構造

最大のフラグメントの漸近分布を取得するには、指数変数を合計で除算した均一な間隔の古典的な構成を示す必要があります。関連する順序統計の確率密度 はうん1うんk

fうん1うんkあなたは1あなたはk=k0あなたは1あなたはk+1

を示す場合、で、を取得します。=うんうん1うん0=0

f1kδ1δk=k0δ++δk1。

定義することにより、次のようになります。うんk+1=1

f1k+1δ1δk+1=kδ1++δk=1。

ここで、を平均1のIID指数確率変数とし、ます。変数を簡単に変更すると、次のことがわかります。バツ1バツk+1S=バツ1++バツk+1

fバツ1バツkSバツ1バツks=es

定義し、変数を変更することで取得するようにしますY=バツ/S

fY1YkSy1yks=skes

この密度をに関して積分すると、次のようになります。s

fY1,Yk,(y1,,yk)=0skesds=k!,0yi++yk1,and thusfY1,Yk+1,(y1,,yk+1)=k!,y1++yk+1=1.

そのため、間隔上の均一な間隔の結合分布は、指数ランダム変数の結合分布を合計で割ったものと同じです。次の分布の等価になりますk+1(0,1)k+1

Δ(k+1)X(k+1)X1++Xk+1.

4.漸近分布

上記の等価性を使用して、以下を取得します

P((k+1)Δ(k+1)log(k+1)x)=P(X(k+1)(x+log(k+1))X1++Xk+1k+1)=P(X(k+1)log(k+1)x+(x+log(k+1))Tk+1),

ここで、です。この変数は、および。漸近的に、分布はの分布と同じです。はIIDであるため、Tk+1=X1++Xk+1k+11E(Tk+1)=0Var(log(k+1)Tk+1)=(log(k+1))2k+10X(k+1)log(k+1)Xi

Pバツk+1ログk+1バツ=Pバツ1バツ+ログk+1k+1=1eバツログk+1k+1=1eバツk+1k+1exp{eバツ}

5.グラフィカルな概要

以下のプロットは、異なる値に対する最大フラグメントの分布を示しています。以下のために、私はまた、漸近ガンベル分布(細線)を重ねてきました。Gumbelは小さな値の非常に悪い近似なので、画像を過負荷にしないためにそれらを省略します。ガンベル近似はから良好です。kk=102050kk50

壊れたスティックの最大の断片の分布

6.参照

上記の証明は参考文献2および3から取られています。引用文献には、任意のランクの順序付けられた間隔の分布、それらの制限分布、および順序付けられた均一な間隔のいくつかの代替構造など、さらに多くの結果が含まれています。キー参照には簡単にアクセスできないため、全文へのリンクも提供します。

  1. バイラモフ等。(2010)規則正しい間隔の制限結果、Stat論文、51:1、pp 227-240
  2. ホルスト(1980)ランダム壊れた棒の破片の長さについて、 J。Appl。Prob。、17、pp 623-634
  3. Pyke(1965)Spacings、JRSS(B)27:3、pp。395-449
  4. Renyi(1953)オーダー統計の理論について、Acta math Hung、4、pp 191-231

ブリリアント。ところで、既知の漸近はありますか?E(Zk2)
アミールサギフ

@AmirSagivこれはいい質問です。参考文献をざっと見てみると、見つかりませんでした。上記の証明も適応できませんでした。これにより、Gumbelの正方形の分布が何であるかわからないことがわかりました。おそらく開始するのに適した場所ですか?
gui11aume

1
$ gui11aumeここをクリックしてください:mathoverflow.net/a/293381/42864
アミール・サギフ

1
@AmirSagivこれは非常に良い投稿です。何らかの理由で、私はあなたの質問を誤解し、漸近分布に興味があると思ったので(あなたのコメントは非常に明確でしたが)、上記の私のコメントはそれほど関連性がありません。Zk2
gui11aume

3

これは完全な答えではありませんが、簡単なシミュレーションをいくつか行いました。これは私が得たものです。 最長フラグメントのヒストグラム

iidの一様分布の順序統計はベータwikiであるため、これは非常にベータに近いように見え、これは少し理にかなっています

これにより、結果のPDFを導出するための出発点が得られる場合があります。

最終的な解決策が得られたら更新します。

乾杯!


ただ、もう一つのこと、離れて得ることから、大幅に変更されませんKを増大させるためのヒストグラムの形状は、0に近い「踏み付け」
リマ

1
@Limaのご意見をお寄せいただきありがとうございます(そしてCross Validatedへようこそ)。あなたの答えは改善できると思います。第一に、証拠のない発言は控えます。これが正しくない場合、このスレッドを見た人を間違った方向に追い込む可能性があります。第二に、あなたがしたことを文書化します。使用したの値もコードもなければ、図は誰にも役に立たない。最後に、回答をコピー編集し、質問に直接回答していないものをすべて削除します。k
gui11aume

1
提案をありがとう。それらはスタック交換を超えて有効であり、私はそれらを使用することを忘れないでしょう。
リマ

1

2005年にシエナ(イタリア)で開催された会議の回答を作成しました。論文(2006)は、こちらの Webサイト(pdf)に掲載されています。すべての間隔(最小から最大)の正確な分布は、75ページおよび76ページにあります。

2016年9月にマンチェスター(イングランド)で開催されるRSSカンファレンスで、このトピックに関するプレゼンテーションを行いたいと考えています。


2
サイトへようこそ。私たちは質の高い統計情報の永続的なリポジトリを質問と回答の形で構築しようとしています。したがって、linkrotによるリンクのみの回答には注意が必要です。完全な引用と情報の要約をリンクに投稿できますか?また、ここで投稿に署名しないでください。すべての投稿には、その情報を投稿できるユーザーページへのリンクがあります。
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.