次の問題についてのアドバイスをいただければ幸いです。
多くのゼロ(〜95%)を持つ大規模な連続データセットがあり、その特定のサブセットが「興味深い」かどうかをテストするための最良の方法を見つける必要があります。つまり、同じ分布から引き出されていないようです残り。ゼロインフレは、各データポイントが、真とサンプリングゼロの両方を持つカウント測定に基づいているという事実から来ますが、カウントによって重み付けされた他のいくつかのパラメーターを考慮するため、結果は連続的です(したがって、カウントがゼロの場合、結果もゼロです)。
これを行う最善の方法は何でしょうか?ウィルコクソンおよびブルートフォース順列テストでさえ、これらのゼロによって歪められるので不十分だと感じています。ゼロ以外の測定に焦点を合わせると、非常に重要な真のゼロも削除されます。カウントデータのゼロインフレモデルは十分に開発されていますが、私の場合には適していません。
Tweedie分布をデータに適合させ、response = f(subset_label)にglmを適合させることを検討しました。理論的にはこれは実現可能と思われますが、(a)これが過剰であり、(b)すべてのゼロがサンプルゼロであると暗黙のうちに想定されているか、つまり順列と同じように(せいぜい)バイアスがかかっているのでしょうか?
直感的には、ゼロの比率に基づく二項統計と、非ゼロ値(または、より良いのは、いくつかの以前に基づいてゼロ)。ベイジアンネットワークのように聞こえます...
うまくいけば、私がこの問題を抱えた最初のものではないので、あなたに適切な既存のテクニックを教えていただければ幸いです...
どうもありがとう!