経験的分布の代替


12

賞金:

完全な恵みを推定言及用途または任意の発表された論文への参照を提供誰かに授与されますF~以下を。

動機:

このセクションはおそらくあなたにとって重要ではなく、あなたが報奨金を得るのに役立たないと思いますが、誰かが動機について尋ねたので、ここで私が取り組んでいるものがあります。

統計グラフ理論の問題に取り組んでいます。標準の密集グラフ制限オブジェクトW:[0,1]2[0,1]の意味での対称関数であるW(u,v)=W(v,u)。上のグラフサンプリングn頂点がサンプリングと考えることができるn(単位区間上に均一な値Uiためにi=1,,n)、次いで、エッジの確率(i,j)であるW(Ui,Uj)。結果の隣接行列をAと呼びますAます。

我々は扱うことができW密度としてf=W/Wと仮定W>0。我々は推定した場合fに基づいてAへの制約を受けることなくf、我々は一貫性の推定値を得ることができません。fが制約付きの可能な関数のセットに由来する場合、一貫して推定することに関する興味深い結果を見つけました。この推定量とAからWを推定できますffAW

残念ながら、私が見つけた方法は、密度分布からサンプリングしたときに一貫性を示していfます。A構築方法では、ポイントのグリッドをサンプリングする必要があります(元のから描画するのとは対照的fです)。このstats.SEの質問では、実際に分布から直接サンプリングするのではなく、このようなグリッドでサンプルベルヌーイのみをサンプリングできる場合に何が起こるかという1次元(より単純な)問題を求めています。

グラフの制限の参照:

L.ロバスツとB.セゲディ。密なグラフシーケンスの制限(arxiv)。

C.ボルグス、J。チェイス、L。ロバスツ、V。ソス、K。ヴェステルゴンビ。密なグラフの収束シーケンスi:サブグラフの頻度、メトリックプロパティ、およびテスト。(arxiv)。

表記:

CDFと連続分布検討FおよびPDF f区間に正サポートしている[0,1]。仮定fないpointmassを有していない、Fどこでも微分可能であり、また、そのsupz[0,1]f(z)=c<のsupremumあるf区間に[0,1]。ましょXXF確率変数という意味Xは、分布からサンプリングされFます。 UiオンIID一様ランダム変数である[0,1]

問題のセットアップ:

多くの場合、X1,,Xnを分布ランダム変数とFし、通常の経験分布関数として F NT = 1 ここで、Iは指標関数です。この経験分布ように注意 F Ntはそれ自体ランダムである(ここで、T

F^n(t)=1ni=1nI{Xit}
IF^n(t)t固定されています)。

残念ながら、からサンプルを直接描画することはできません。しかし、私は知っているfは唯一に積極的な支援を持っている[ 0 1 ]、と私は、ランダムな変数を生成することができますY 1... Y N Yが、私は成功の確率でベルヌーイ分布を持つ確率変数である pは、私は = fはi 1 + U i/ n / c ここで、cFf[0,1]Y1,,YnYi

pi=f((i1+Ui)/n)/c
cおよびは上記で定義されています。だから、 Y IベルンP I。私は推定可能性があることを1つの明白な方法 Fをこれらから Y iの値が取ることである F nはトンを= 1UiYiBern(pi)FYi天井関数(ある、最も近い整数にちょうどラウンドアップ)であり、そして場合再描画Σ N iは= 1 Yをiが=0を(ゼロで割って宇宙が崩壊するのを避けるため)。ことに注意してくださいFtはまた、以降確率変数であるYiの確率変数です。
F~n(t)=1i=1nYii=1tnYi
i=1nYi=0F~(t)Yi

質問:

(私が思うに)最も簡単なものから最も難しいものまで。

  1. この場合は誰もが知っています(類似または何かが)名前を持っていますか?そのプロパティの一部を参照できるリファレンスを提供できますか?F~n

  2. 、あるFnの一貫性の推定量 F tは(そして、あなたはそれを証明することができますか)?F~n(t)F(t)

  3. 極限分布は何かなどのnはF~n(t)n

  4. 理想的には、nの関数として次をバインドしたいです。n -例えば、、しかし、私は真実が何であるか知らない。OPは、の略確率でビッグOOP(log(n)/n)OP

supC[0,1]C|F~n(t)F(t)|dt

いくつかのアイデアとメモ:

  1. これは、グリッドベースの層別化による受け入れ拒否サンプリングによく似ています。ただし、提案を拒否した場合に別のサンプルを描画しないためではありません。

  2. 私はこれはかなり確信しているバイアスされています。私は代替考える Fを*F~n 公平であるが、それはその不快な性質を持っているPF *

    F~n(t)=cni=1tnYi
    P(F~(1)=1)<1
  3. 私は使用に興味があります として、プラグイン推定。これは有用な情報ではないと思いますが、おそらくそれが何らかの理由でわかるかもしれません。F~n

Rの例

経験的分布と比較したい場合のRコードは次のとおりです。 。申し訳ありませんが、インデントの一部が間違っています...それを修正する方法がわかりません。F~n

# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)


# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
  u <- sort(runif(n)) 
  x <- qD(u) # samples for empirical dist
  z <- 0 # keep track of how many y_i == 1
  # take bernoulli samples at the points s
  s <- seq(0,1-1/n,length=n) + runif(n,0,1/n) 
  p <- dD(s) # density at s
  while(z == 0){ # make sure we get at least one y_i == 1
    y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
    z <- sum(y)
  }
  result <- list(x=x, y=y, z=z)
  return(result)
}

sim <- function(simdat, n, w){
  # F hat -- empirical dist at w
  fh <- mean(simdat$x < w) 
  # F tilde
  ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
  # Uncomment this if we want an unbiased estimate.
  # This can take on values > 1 which is undesirable for a cdf.
  ### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
  return(c(fh, ft))
}


set.seed(1) # for reproducibility

n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))

# compare the true value to the empirical means
pD(w) # the truth 
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var)  # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth


# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
     main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
     rep(seq(0,1,length=n+1),each=2),
     col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
      rep(seq(0,1,length=dat$z+1),each=2),
      col="blue")

output from the above data

編集:

編集1-

これを編集して、@ whuberのコメントに対処しました。

編集2-

Rコードを追加して、もう少しクリーンアップしました。読みやすくするために表記を少し変更しましたが、基本的には同じです。許可され次第、これに報奨金をかける予定ですので、さらに説明が必要な場合はお知らせください。

編集3-

@cardinalの発言に取り組んだと思います。合計変動のタイプミスを修正しました。バウンティを追加しています。

編集4-

@cardinalの「動機付け」セクションを追加しました。


1
fFsupzf(z)sup

1
コメントをありがとう@whuber 修正された質問がまだ紛らわしい場合はお知らせください。
-user1448319

1
あぁ!これは、が固定されておらず、漸近性に興味があることを見た最初の兆候です。nを選択する柔軟性がある場合、サンプルポイントの適応選択(固定グリッド{ i / n }に限定するのではなく)などの可能性が広がりますか?また、fが連続的である(同様に、F完全に連続的である)というような無言の仮定をしていることも明らかです。この分析に役立つ基礎となる分布Fについて他に何を想定できますか?nn{i/n}fFF
ウーバー

2
piYi,ni=1,,npif(U)/cUは一様なランダム変数です。本当?(質問へのもう少しのコンテキストは、これらのクエリの多くを解決するでしょう。)乾杯。
枢機

2
この質問は非常に改善されたので、以前にコメントを見たことに気付くまでは認識しませんでした。今では非常に興味深く、よりよく書かれた質問です。
Glen_b-モニカを復活させる

回答:


1

この参照しながら

編集:非常に類似した統計への参照を追加 「不完全な観測からのノンパラメトリック推定」 EL Kaplan and Paul Meier 53、No。282(1958年6月)、pp。457-481

[0,1][0,)

十分な振る舞いをしていれば、カーネル平滑化による分布の合理的な推定値が得られれば、バイアスの推定が可能になります(WikipediaのKhmaladze変換などを参照)。

f=W/WA


Jamesのサイトへようこそ。あなたの貢献をもっと楽しみにしています。
枢機

0

上記の質問2と3に答えます。まだ参考文献が欲しいのですが(質問1から)。

Yi=0

g(A,B)=A/(A+B)

gA(A,B)=(A+B)1+A(A+B)2gB(A,B)=A(A+B)2gAA(A,B)=2B(A+B)3gAB(A,B)=(AB)(A+B)3gBB(B,B)=2A(A+B)3
where the subscripts denote the derivatives. Recall pi=f((i1+Ui)/n)/c. Let
R=1ni=1ntYi,μR=E(R)=0tp(u)du=c1F(t)S=1nnt+1nYi,μS=E(S)=t1p(u)du=c1(1F(t))
So note that μR+μS=c1F(t)+c1(1F(t))=c1 and g(μR,μS)=F(t). Also,
 Var(R)=1n2i=1nt Var(Yi)=1n0tf(u)/c(1f(u)/c)du=1nc20tf(u)(cf(u))du Var(S)=1nc2t1f(u)(cf(u))du
Note that  Cov(R,S)=0 by independence of the Yis.

Now, we use a taylor expansion to get

E(F~n(t))=E(1i=1nYii=1tnYi)=E(nRnR+nS)=E(RR+S)=E(g(R,S))=g(μR,μS)+12E((RμR)2)gRR(μR,μS)+E((RμR)(SμS))gRS(μR,μS)+12E((SμS)2)gSS(μR,μS)+=F(t)+12E((RμR)2)2μS(μR+μS)3+E((RμR)(SμS))(μRμS)(μR+μS)3+12E((SμS)2)2μR(μR+μS)3+=F(t)+(μR+μS)3(E((RμR)2)μS+E((RμR)(SμS))(μRμS)+E((SμS)2)μR)+=F(t)+c3( Var(R)c(1F(t))+ Cov(R,S)(cF(t)c(1F(t)))+ Var(S)cF(t))+=F(t)+c4((1n0tf(u)(cf(u))du)(1F(t))+(1nt1f(u)(cf(u))du)F(t))+=F(t)+V~F(t)/n+=F(t)+O(n1)
where
V~F(t)=c2(0tf(u)(cf(u))du)(1F(t))+c2(t1f(u)(cf(u))du)F(t)<c2(0tcf(u)du)(1F(t))+c2(t1cf(u)du)F(t)<c32F(t)(1F(t))
In particular, we get
n(F~n(t)F(t))dN(0,VF(t))

Please comment if you see something wrong with this.

EDITS:

Edit 1 --

Fixed a typo in VF(t). Thanks @cardinal for your suggestion in the comments about question 4.

Edit 2 --

Fixed plenty of typos: I had c1 where I should have had c in many places. I still need to address @cardinal's response about Yi=0.


1
Dear @user: This is on the right track; here are some suggestions. (1) The mean of F~n(t) doesn't exist, at least not until you specify what happens when iYi=0, so strictly speaking the analysis in the answer is not correct. Defining a behavior at zero will break the independence structure, but all is not lost. (2) Essentially, what you're doing is applying the multivariate delta method. Note that this doesn't require the existence of the mean of F~n(t), so it will be cleaner (and more correct) if you go this route.
cardinal

2
(3) Item 4 in your list is handled as follows. Note that
supC[0,1]C|F~F|sup[0,1]|F~F~|+01|F~EF~|+O(n1).
The first term on the right-hand side, {iYi>0}, is |1cn1iYi|, so is clearly Op(n1/2). You're left only to deal with the middle term, but that succumbs readily to Markov's inequality followed by Jensen's and is also Op(n1/2).
cardinal

Dear @user: It would be helpful to see some more elaboration to your remark regarding not needing to considering the case iYi=0. What you are describing is conditional sampling. The Yi conditional on {iYi>0} are not independent (or conditionally independent), so the (implicit) analysis in the answer does not hold. It may be helpful to look at the n=2 case to see this (just draw the 2×2 table).
cardinal

As an additional aside, it may be worth noting that supCC|F~F|=01|F~F|, so this definition can be simplified.
cardinal
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.