打ち切られた分布による密度推定？

8

左側が切り捨てられているデータがあります。私はそれを平滑化しようとするのではなく、何らかの方法で処理する密度推定に適合させたいと思います。

これに対処できる既知の方法（通常、Rで）

サンプルコード：

set.seed(1341)
x <- c(runif(30, 0, 0.01), rnorm(100,3))
hist(x, br = 10, freq = F)
lines(density(x), col = 3, lwd = 3)

ここに画像の説明を入力してください

ありがとう:)

r pdf histogram kernel-smoothing

— タル・ガリリ
ソース

6

これは、「デルタ対数正規分布」（x軸が対数として解釈される）と呼ばれることのある良い例です。これは、1つの連続分布（ほぼ正常に見えますが、正確な識別はユーザー次第です）と0 の近くでサポートされる点分布 の混合であると考えることができます。混合モデルは適切に機能します。 この特定のケースでは、0の近くの原子と残りのデータの間の分離が非常に良いので、左側のデータ（0.5未満）を削除し、残りの密度を推定するだけで十分です。

— whuber

2

状況によっては、このようなものはTweedieディストリビューションと呼ばれることがあります。

— 枢機卿、

枢機卿-参照をありがとう！Whuber、私は0に近い部分にもっと興味があるので、以下のGregの答えは素晴らしいです。あなたがた両方に感謝します。

— Tal Galili 2011年

6

Rのlogsplineパッケージにはoldlogspline関数があり、観測データと打ち切りデータの混合を使用して密度を推定します。

— グレッグ・スノー
ソース

5

密度関数も有するfrom「濃度は、推定されるべきグリッドの」一番左の側を示すパラメータ。上記の例の続き：

lines(density(x, from = 0), col = 4, lwd = 3)

ただし、ご覧のとおり、これはfrom上記のパラメーターなしの分布とまったく同じです。0から始まるだけです。

— マイクT
ソース