1
連続分布からのデータの最適な離散化の決定
あなたは、データセットがあると濃度と連続分布からP (Y )上に支持され、[ 0 、1 ]知られていないが、n個のカーネル密度ので、(例えば) 推定値はかなり大きく、P(Y )、かなり正確です。特定のアプリケーションのために私は、新しいデータセット生成するカテゴリの有限数に観測されたデータを変換する必要がZ 1を、。。。、Z nY1,...,YnY1,...,YnY_{1}, ..., Y_{n}p(y)p(y)p(y)[0,1][0,1][0,1]nnnp^(y)p^(y)\hat{p}(y)Z1,...,ZnZ1,...,ZnZ_{1}, ..., Z_{n}暗黙の質量関数ます。g(z)g(z)g(z) 簡単な例は次のようになりときにY I ≤ 1 / 2及びZは、iが = 1ときY I > 1 / 2。この場合、誘導される質量関数はZi=0Zi=0Z_{i} = 0Yi≤1/2Yi≤1/2Y_{i} \leq 1/2Zi=1Zi=1Z_{i} = 1Yi>1/2Yi>1/2Y_{i} > 1/2 g^(0)=∫1/20p^(y)dy, g^(1)=∫11/2p^(y)dyg^(0)=∫01/2p^(y)dy, g^(1)=∫1/21p^(y)dy \hat{g}(0) = \int_{0}^{1/2} \hat{p}(y) dy, \ \ \ \hat{g}(1) = \int_{1/2}^{1} \hat{p}(y)dy …