経験分布関数の定義を理解する方法

私は、ラリー・ワッサーマンによるすべてのノンパラメトリック統計を読んでいます。12ページで、彼は経験的分布関数を次のように定義しています。

経験分布関数 プット質量そのCDFである各データポイントで。正式には $\hat{F_n}$ $\frac{1}{n}$ $X_i$

\hat{F_{n}} (x) = \frac{1}{n} \sum_{i = 1}^{n} I (X_{i} \leq x)

$\hat{F_n}(x)=\frac{1}{n}\sum^{n}_{i=1}I(X_i\le x)$

どこ

I (X_{i} \leq x) = {\begin{matrix} 1 & i f X_{i} \leq x \\ 0 & i f X_{i} > x \end{matrix}

$I(X_i\le x)=\left\{\begin{matrix} 1& if\ X_i \le x\\ 0 & if \ X_i>x \end{matrix}\right.$

私の質問は：

が質量と呼ばれるのはなぜですか？ $\frac{1}{n}$
CDFは質量を各データポイント、私の理解では、それはなるはず。 $\frac{1}{n}$ $X_i$ $\frac{1}{n}X_1+\frac{1}{n}X_2+...+\frac{1}{n}X_n$

なぜですか？この式は、各インジケーター関数に質量しますが、は設定しないと思います。 $\hat{F_n}(x)=\frac{1}{n}\sum^{n}_{i=1}I(X_i\le x)$ $\frac{1}{n}$ $I(X_i \le x)$ $X_i$

「データポイントごとに」何かを「プット」することの意味は何ですか？

distributions nonparametric

— 深い北
ソース

が質量と呼ばれるのはなぜですか？ $\frac{1}{n}$

「質量」という用語は、連続的な分布に関する「密度」とは異なり、単一の離散点での確率の量を指します。

CDFは質量を各データポイント、私の理解では、それはなるはず。 $\frac{1}{n}$ $X_i$ $\frac{1}{n}X_1+\frac{1}{n}X_2+...+\frac{1}{n}X_n$

それは問題ではありません、それは声明です-しかし、そこに与えられたあなたの理解は一度にいくつかの点で間違っているので、私はそれを議論することができます。

まず、式は、実際には標本平均の式です（確率変数として）-文字通り値を平均することを意味します。代わりに、ここに経験的確率関数の式を記述するつもりだったと思いますが、ここでは確率関数ではなく分布関数を扱うことを想定しているため、経験的割合を見つける必要があります。可能な各値の左側または左側にある確率-これは、分布関数が各点で確率1 / nを表す方法です。 $\frac{1}{n}X_1+\frac{1}{n}X_2+...+\frac{1}{n}X_n$ $x$

これらは、同じ基本オブジェクトの2つの異なる表現です。経験的pmfは各観測値で1 / nの質量を示し、ecdfは各観測値で1 / nずつ増加する高さを示します（これはインジケーター関数の合計の1 / n倍に相当します）あなたが言及した）

「データポイントごとに」何かを「プット」することの意味は何ですか？

ここで何が問題を引き起こしているのか正確にはわかりません。単語は基本的に通常の意味を持っています。それぞれの観測値で比率を示す上記の画像を参照してください。epmfとecdfをそれぞれpmfとcdfとして扱う場合、それらは確率です。おそらくそれはをアクティブなエンティティ（どこかに「置く」ことができるもの）として扱い、混乱させます-「置く」ではなく「持っている」と言った方が理解しやすいでしょうか？それでも問題が解決しない場合は、そこで説明する必要があることを明確にする必要があります。 $1/n$ $x_i$ $\hat{F}$

— Glen_b-モニカの復活
ソース