経験的CDFの統合

経験的分布 $G(x)$ ます。次のように計算します

    x <- seq(0, 1000, 0.1)
    g <- ecdf(var1)
    G <- g(x)

私は $h(x) = dG/dx$ 。つまり、 $h$ はpdfで、 $G$ はcdfです。

私は今（と言う統合の上限のための方程式を解決したいの期待値というように、）いくつかある。 $a$ $x$ $k$

それから、積分、ある $0$ に $b$ 、私が持っているべきである $\int xh(x)dx = k$ 。について解きたい $b$ 。

部品ごとに統合して、方程式を次のように書き換えることができます。

$bG(b) - \int_0^b G(x)dx = k$ 積分はあり、 $0$ に $b$ -------（1）

次のように積分を計算できると思います

    intgrl <- function(b) {
        z <- seq(0, b, 0.01)
        G <- g(z)
        return(mean(G))
     }

しかし、この関数を使用しようとすると

    library(rootSolve)
    root <- uniroot.All(fun, c(0, 1000))

funがeq（1）の場合、次のエラーが表示されます

    Error in seq.default(0, b, by = 0.01) : 'to' must be of length 1

問題は、私の関数intgrlが数値で評価されuniroot.All、間隔を通過していることだと思いますc(0,1000)

この状況でRのをどのように解決すればよいですか？ $b$

r integral ecdf

— user46768
ソース

ソートされたデータは、とする。経験的CDF を理解するために、値の1つを考えてみましょうと呼びましょう $x_1 \le x_2 \le \cdots \le x_n$ $G$ $x_i$ $\gamma$ -そして、いくつかの番号と仮定のは、ある未満とのは、同じです。すべての可能なデータ値のうち、のみの間隔を選択します $k$ $x_i$ $\gamma$ $t \ge 1$ $x_i$ $\gamma$ $[\alpha, \beta]$ $\gamma$ が表示されます。次に、定義により、この間隔内で、はより小さい数については定数値を持ち、より大きい数については定数値にジャンプします。 $G$ $k/n$ $\gamma$ $(k+t)/n$ $\gamma$

ECDF

寄与検討から間隔。が関数ではない-それは、サイズの点尺度であるで --the積分され定義された正直ツー良積分に変換する部分積分によって。これを区間行いましょう： $\int_0^b x h(x) dx$ $[\alpha,\beta]$ $h$ $t/n$ $\gamma$ $[\alpha,\beta]$

\int_{α}^{β} x h (x) d x = (x G (x)) |_{α}^{β} - \int_{α}^{β} G (x) d x = (β G (β) - α G (α)) - \int_{α}^{β} G (x) d x .

$\int_\alpha^\beta x h(x) dx = \left(x G(x)\right)\vert_\alpha^\beta - \int_\alpha^\beta G(x) dx = \left(\beta G(\beta) - \alpha G(\alpha)\right) -\int_\alpha^\beta G(x) dx.$

新しい被積分関数は、で不連続ですが、積分可能です。その値は、統合ドメインをのジャンプの前後の部分に分割することで簡単に見つかります。 $\gamma$ $G$

\int_{α}^{β} G (x) d x = \int_{α}^{γ} G (α) d x + \int_{γ}^{β} G (β) d x = (γ - α) G (α) + (β - γ) G (β) .

$\int_\alpha^\beta G(x)dx = \int_\alpha^\gamma G(\alpha) dx + \int_\gamma^\beta G(\beta) dx = (\gamma-\alpha)G(\alpha) + (\beta-\gamma)G(\beta).$

これを前述のものに代入して、を思い出すと、 $G(\alpha)=k/n, G(\beta)=(k+t)/n$

\int_{α}^{β} x h (x) d x = (β G (β) - α G (α)) - ((γ - α) G (α) + (β - γ) G (β)) = γ \frac{t}{n} .

$\int_\alpha^\beta x h(x) dx = \left(\beta G(\beta) - \alpha G(\alpha)\right) - \left((\gamma-\alpha)G(\alpha) + (\beta-\gamma)G(\beta)\right) = \gamma\frac{t}{n}.$

つまり、この積分は、各ジャンプの位置（軸に沿った）にそのジャンプのサイズを掛けます。ジャンプのサイズは $X$

\frac{t}{n} = \frac{1}{n} + \dots + \frac{1}{n}

$\frac{t}{n} = \frac{1}{n} + \cdots + \frac{1}{n}$

等しいデータ値ごとに1つの項があります。すべてのそのようなジャンプからの寄与追加示すことを $\gamma$ $G$

\int_{0}^{b} x h (x) d x = \sum_{i : 0 \leq x_{i} \leq b} (x_{i} \frac{1}{n}) = \frac{1}{n} \sum_{x_{i} \leq b} x_{i} .

$\int_0^b x h(x) dx = \sum_{i:\, 0 \le x_i \le b} \left(x_i\frac{1}{n}\right) = \frac{1}{n}\sum_{x_i\le b}x_i.$

$1/n$ $[0,b]$ $1/n$ $1/m$ $m$ $[0,b]$ 。）

$k$ $b$ $\frac{1}{n}\sum_{x_i\le b}x_i = k.$ $k$ $j$

\frac{1}{n} \sum_{i = 1}^{j - 1} x_{i} \leq k < \frac{1}{n} \sum_{i = 1}^{j} x_{i},

$\frac{1}{n}\sum_{i=1}^{j-1} x_i \le k \lt \frac{1}{n}\sum_{i=1}^j x_i,$

you will have narrowed $b$ to the interval $[x_{j-1}, x_j)$ . You can do no better than that using the ECDF. (By fitting some continuous distribution to the ECDF you can interpolate to find an exact value of $b$ , but its accuracy will depend on the accuracy of the fit.)

R performs the partial sum calculation with cumsum and finds where it crosses any specified value using the which family of searches, as in:

set.seed(17)
k <- 0.1
var1 <- round(rgamma(10, 1), 2)
x <- sort(var1)
x.partial <- cumsum(x) / length(x)
i <- which.max(x.partial > k)
cat("Upper limit lies between", x[i-1], "and", x[i])

The output in this example of data drawn iid from an Exponential distribution is

Upper limit lies between 0.39 and 0.57

The true value, solving $0.1 = \int_0^b x \exp(-x)dx,$ is $0.531812$ . Its closeness to the reported results suggests this code is accurate and correct. (Simulations with much larger datasets continue to support this conclusion).

Here is a plot of the empirical CDF $G$ for these data, with the estimated values of the upper limit shown as vertical dashed gray lines:

Figure of ECDF

— whuber
ソース

This is a very clear and helpful answer, so thank you!

— user46768