賞金:
完全な恵みを推定言及用途または任意の発表された論文への参照を提供誰かに授与されます以下を。
動機:
このセクションはおそらくあなたにとって重要ではなく、あなたが報奨金を得るのに役立たないと思いますが、誰かが動機について尋ねたので、ここで私が取り組んでいるものがあります。
統計グラフ理論の問題に取り組んでいます。標準の密集グラフ制限オブジェクトの意味での対称関数である。上のグラフサンプリング頂点がサンプリングと考えることができる(単位区間上に均一な値ために)、次いで、エッジの確率である。結果の隣接行列をAと呼びますます。
我々は扱うことができ密度としてと仮定。我々は推定した場合に基づいてへの制約を受けることなく、我々は一貫性の推定値を得ることができません。fが制約付きの可能な関数のセットに由来する場合、一貫して推定することに関する興味深い結果を見つけました。この推定量と∑ Aから、Wを推定できます。
残念ながら、私が見つけた方法は、密度分布からサンプリングしたときに一貫性を示しています。構築方法では、ポイントのグリッドをサンプリングする必要があります(元のから描画するのとは対照的です)。このstats.SEの質問では、実際に分布から直接サンプリングするのではなく、このようなグリッドでサンプルベルヌーイのみをサンプリングできる場合に何が起こるかという1次元(より単純な)問題を求めています。
グラフの制限の参照:
L.ロバスツとB.セゲディ。密なグラフシーケンスの制限(arxiv)。
C.ボルグス、J。チェイス、L。ロバスツ、V。ソス、K。ヴェステルゴンビ。密なグラフの収束シーケンスi:サブグラフの頻度、メトリックプロパティ、およびテスト。(arxiv)。
表記:
CDFと連続分布検討およびPDF 区間に正サポートしている。仮定ないpointmassを有していない、どこでも微分可能であり、また、そののsupremumある区間に。ましょX確率変数という意味は、分布からサンプリングされます。 オンIID一様ランダム変数である。
問題のセットアップ:
多くの場合、を分布ランダム変数とし、通常の経験分布関数として F N(T )= 1 ここで、Iは指標関数です。この経験分布ように注意 F N(tは)それ自体ランダムである(ここで、T
残念ながら、からサンプルを直接描画することはできません。しかし、私は知っているfは唯一に積極的な支援を持っている[ 0 、1 ]、と私は、ランダムな変数を生成することができますY 1、... 、Y N Yが、私は成功の確率でベルヌーイ分布を持つ確率変数である pは、私は = fは((i − 1 + U i)/ n )/ c ここで、c
質問:
(私が思うに)最も簡単なものから最も難しいものまで。
この場合は誰もが知っています(類似または何かが)名前を持っていますか?そのプロパティの一部を参照できるリファレンスを提供できますか?
、ある〜Fの一貫性の推定量 F (tは)(そして、あなたはそれを証明することができますか)?
極限分布は何かなどのnは→ ∞?
理想的には、nの関数として次をバインドしたいです。 -例えば、、しかし、私は真実が何であるか知らない。OPは、の略確率でビッグO
いくつかのアイデアとメモ:
これは、グリッドベースの層別化による受け入れ拒否サンプリングによく似ています。ただし、提案を拒否した場合に別のサンプルを描画しないためではありません。
私はこれはかなり確信しているバイアスされています。私は代替考える 〜Fを* 公平であるが、それはその不快な性質を持っているP(〜F *(
。私は使用に興味があります として、プラグイン推定。これは有用な情報ではないと思いますが、おそらくそれが何らかの理由でわかるかもしれません。
Rの例
経験的分布と比較したい場合のRコードは次のとおりです。 。申し訳ありませんが、インデントの一部が間違っています...それを修正する方法がわかりません。
# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)
# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
u <- sort(runif(n))
x <- qD(u) # samples for empirical dist
z <- 0 # keep track of how many y_i == 1
# take bernoulli samples at the points s
s <- seq(0,1-1/n,length=n) + runif(n,0,1/n)
p <- dD(s) # density at s
while(z == 0){ # make sure we get at least one y_i == 1
y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
z <- sum(y)
}
result <- list(x=x, y=y, z=z)
return(result)
}
sim <- function(simdat, n, w){
# F hat -- empirical dist at w
fh <- mean(simdat$x < w)
# F tilde
ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
# Uncomment this if we want an unbiased estimate.
# This can take on values > 1 which is undesirable for a cdf.
### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
return(c(fh, ft))
}
set.seed(1) # for reproducibility
n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))
# compare the true value to the empirical means
pD(w) # the truth
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var) # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth
# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
rep(seq(0,1,length=n+1),each=2),
col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
rep(seq(0,1,length=dat$z+1),each=2),
col="blue")
編集:
編集1-
これを編集して、@ whuberのコメントに対処しました。
編集2-
Rコードを追加して、もう少しクリーンアップしました。読みやすくするために表記を少し変更しましたが、基本的には同じです。許可され次第、これに報奨金をかける予定ですので、さらに説明が必要な場合はお知らせください。
編集3-
@cardinalの発言に取り組んだと思います。合計変動のタイプミスを修正しました。バウンティを追加しています。
編集4-
@cardinalの「動機付け」セクションを追加しました。