連続分布からのデータの最適な離散化の決定


11

あなたは、データセットがあると濃度と連続分布からP Y 上に支持され、[ 0 1 ]知られていないが、n個のカーネル密度ので、(例えば) 推定値はかなり大きく、PY 、かなり正確です。特定のアプリケーションのために私は、新しいデータセット生成するカテゴリの有限数に観測されたデータを変換する必要がZ 1をZ nY1,...,Ynp(y)[0,1]np^(y)Z1,...,Zn暗黙の質量関数ます。g(z)

簡単な例は次のようになりときにY I1 / 2及びZは、iが = 1ときY I > 1 / 2。この場合、誘導される質量関数はZi=0Yi1/2Zi=1Yi>1/2

g^(0)=01/2p^(y)dy,   g^(1)=1/21p^(y)dy

ここでの2つの「調整パラメーター」は、グループの数と、しきい値λm 1 長さベクトルです。誘発される質量関数を表し、G、M λY m(m1)λg^m,λ(y)

たとえば、「グループの数をm + 1に増やして(そこで最適なλを選択すると)無視できるほどの改善が得られるように、最適な選択肢は何ですか」と答える手順を教えてください。おそらく、その分布を導き出すことができるテスト統計を作成できる(多分KLの相違の違いなど)。アイデアや関連文献はありますか?m,λm+1λ

編集:連続変数の時間測定値を等間隔に配置し、時間依存性をモデル化するために不均一なマルコフ連鎖を使用しています。率直に言って、離散状態マルコフチェーンの方がはるかに扱いやすく、それが私の動機です。観測されたデータはパーセンテージです。私は現在非常によく見えるアドホックな離散化を使用していますが、これは正式な(そして一般的な)ソリューションが可能な興味深い問題だと思います。

編集2: KLの相違を実際に最小化することは、データをまったく離散化しないことと同じであるため、そのアイデアは完全に外れています。それに応じて本文を編集しました。


1
ほとんどの場合、後続のアプリケーションのニーズがソリューションの良さを決定します。おそらく、私たちにいくつかのガイダンスを与えるために、あなたはそれについてもっと言うことができます。
whuber

まず、ごくわずかとはどういう意味かを定義します。これは率直に言えば、レート歪みの問題に関連しているようです。カバー&トーマス・テキストは、そのような話題に素敵読める紹介しています。
枢機卿

kk1

離散化が実際に良い動きかどうかはわかりません。離散値が観測の元の空間に作成する境界を一般化することはできません。
bayerj 2011

回答:


3

この問題の解決策をしばらく前に紹介します。これは正式な統計テストではありませんが、有用なヒューリスティックを提供する可能性があります。


Y1,Y2,...,Yn[0,1]m0<λ1<λ2<<λm1<1

YiZi(m,λ)λ={λ1,λ2,,λm1}Yim,λ

var(Yi)=var(E(Yi|Zi(m,λ)))+E(var(Yi|Zi(m,λ))).

によって定量化されたグループ内の分散が比較的少ない場合、特定の分類は均質なグループの生成に成功します。 、我々は倹約的なグループ分けその付与ほとんどの変動の追求と。用語Inを特に、レベルを追加してグループ内の均一性を大幅に追加しないようにを選択します 。これを念頭に置いて、固定値の最適なを次のように定義します。E(var(Yi|Zi(m,λ))Yivar(E(Yi|Zi(m,λ))mλm

λm=argminλE(var(Yi|Zi(m,λ)))

どの選択が適切かを決定するための大まかな診断は、関数として-この軌道は単調に増加せず、急激に減少した後、より多くのカテゴリを含めることにより、精度が比較的低くなっていることがわかります。このヒューリスティックは、「スクリープロット」を使用して、バリエーションの「十分な」数を説明する主成分がいくつあるかを確認するために時々使用される方法と同じです。mE(var(Yi|Zi(m,λm)))m

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.