あなたは、データセットがあると濃度と連続分布からP (Y )上に支持され、[ 0 、1 ]知られていないが、n個のカーネル密度ので、(例えば) 推定値はかなり大きく、P(Y )、かなり正確です。特定のアプリケーションのために私は、新しいデータセット生成するカテゴリの有限数に観測されたデータを変換する必要がZ 1を、。。。、Z n暗黙の質量関数ます。
簡単な例は次のようになりときにY I ≤ 1 / 2及びZは、iが = 1ときY I > 1 / 2。この場合、誘導される質量関数は
ここでの2つの「調整パラメーター」は、グループの数と、しきい値λの(m − 1 )長さベクトルです。誘発される質量関数を表し、G、M 、λ(Y )。
たとえば、「グループの数をm + 1に増やして(そこで最適なλを選択すると)無視できるほどの改善が得られるように、最適な選択肢は何ですか」と答える手順を教えてください。おそらく、その分布を導き出すことができるテスト統計を作成できる(多分KLの相違の違いなど)。アイデアや関連文献はありますか?
編集:連続変数の時間測定値を等間隔に配置し、時間依存性をモデル化するために不均一なマルコフ連鎖を使用しています。率直に言って、離散状態マルコフチェーンの方がはるかに扱いやすく、それが私の動機です。観測されたデータはパーセンテージです。私は現在非常によく見えるアドホックな離散化を使用していますが、これは正式な(そして一般的な)ソリューションが可能な興味深い問題だと思います。
編集2: KLの相違を実際に最小化することは、データをまったく離散化しないことと同じであるため、そのアイデアは完全に外れています。それに応じて本文を編集しました。