ゼロインフレ連続データの仮説検定

次の問題についてのアドバイスをいただければ幸いです。

多くのゼロ（〜95％）を持つ大規模な連続データセットがあり、その特定のサブセットが「興味深い」かどうかをテストするための最良の方法を見つける必要があります。つまり、同じ分布から引き出されていないようです残り。ゼロインフレは、各データポイントが、真とサンプリングゼロの両方を持つカウント測定に基づいているという事実から来ますが、カウントによって重み付けされた他のいくつかのパラメーターを考慮するため、結果は連続的です（したがって、カウントがゼロの場合、結果もゼロです）。

これを行う最善の方法は何でしょうか？ウィルコクソンおよびブルートフォース順列テストでさえ、これらのゼロによって歪められるので不十分だと感じています。ゼロ以外の測定に焦点を合わせると、非常に重要な真のゼロも削除されます。カウントデータのゼロインフレモデルは十分に開発されていますが、私の場合には適していません。

Tweedie分布をデータに適合させ、response = f（subset_label）にglmを適合させることを検討しました。理論的にはこれは実現可能と思われますが、（a）これが過剰であり、（b）すべてのゼロがサンプルゼロであると暗黙のうちに想定されているか、つまり順列と同じように（せいぜい）バイアスがかかっているのでしょうか？

直感的には、ゼロの比率に基づく二項統計と、非ゼロ値（または、より良いのは、いくつかの以前に基づいてゼロ）。ベイジアンネットワークのように聞こえます...

うまくいけば、私がこの問題を抱えた最初のものではないので、あなたに適切な既存のテクニックを教えていただければ幸いです...

どうもありがとう！

hypothesis-testing

— a11msp
ソース

更新。これまでのところ、このペーパーは私のものと同様の問題を扱っています。maths.otago.ac.nz

— home

ゼロが絶対過半数を形成していることを考えると、この非常に簡略化された近似が意味をなすかどうか疑問に思っています。1）各サブセットのゼロの割合を見つけます。2）ゼロの数が最も少ないサブセットでは、すべてのゼロが真であると仮定します。3）各サブセットから、最も「ゼロに富んだ」データセットのゼロの比率に等しいゼロの比率を削除します。4）この変更されたデータセットで標準のノンパラメトリック統計を実行します。

— a11msp 2011年

最初のコメントの論文へのハイパーリンクは無効のようです。代わりに引用を提供できますか？

— coip

これを指摘してくれてありがとう：doi.org/10.1007/s10651-005-6817-1

— a11msp

回答:

@msp、私はあなたがその添付ファイルの2ステージモデルを見ていると思います（私はそれを読む時間がありませんでした）が、ゼロ拡張された連続データは私がよく扱うタイプです。（仮説検定を可能にするために）このデータにパラメトリックモデルを当てはめるには、2つのステージを当てはめることができますが、2つのモデルがあります（Yはターゲットで、Xは共変量です）：P（Y = 0 | X）およびP（Y | X; Y> 0）。これらを一緒に「もたらす」にはシミュレーションを使用する必要があります。Gelmansの本（およびRのarmパッケージ）は、この正確なモデルのこのプロセスを示しています（ロジスティック回帰と通常の線形回帰と対数リンクを使用）。

私が見たより良い他のオプションは、ゼロ膨張ガンマ回帰を当てはめることです。これは上記と同じです（ただし、ガウスの代わりに誤差としてガンマ）、P（Y | X）の仮説検定のためにそれらをまとめることができます。。Rでこれを行う方法はわかりませんが、SAS NLMIXEDではできます。この投稿を参照してください。うまくいきます。

— B_マイナー
ソース

@B_Miner、あなたの答えに感謝します、申し訳ありませんがあなたに投票するのに十分な評価がありません...私はリンクを見ていきます！条件付きモデルについての私の唯一の心配は、ゼロが2番目の（連続）成分に属することができないと仮定しているということです、そうですか？私の設定は、混合モデルのようには感じられませんか？どう思いますか？

— a11msp 2011年

これで、ゲルマンの本で提案されている2段階のアプローチを再現しました。（25レベルの）subset_factorがサブセットラベルとして機能する場合、最初のステップはfit1 = glm（response〜subset_factor、family = binomial）;です。2番目のステップは、fit2 = lm（response〜subset_factor、subset = response> 0）です。次に、説明に従ってシミュレーションを実行して、各因子レベルの近似応答値の分布を取得できます。ただし、これを（a）係数がゼロでない確率と（b）異なる因子レベルでの係数間の差の有意性である必要なものに変換する方法はまだわかりません。

— a11msp

2段階のアプローチ（2つの別個のモデルのゲルマン法）では、2つの母集団（ゼロの母集団と上記の母集団）を想定しています。

— B_Miner

...そのため、ゲルマン法の2つのモデルのいずれかで、ある因子レベルの影響が有意である（そして他の因子レベルの影響と有意に異なる）場合、全体的に有意であると単純に言うのが適切でしょうか。

— a11msp 2011年

はい、2段階のアプローチ（2つの別個のモデルのゲルマン法）では、2つの母集団（0と0より大きいもの）を想定しています。仮説検定に関して、入力のさまざまなレベルの予測値に関してそれらをフレーム化し、経験的に構築できます。それぞれのシミュレーションに関連する信頼区間？係数！= 0の仮説検定の場合、両方のモデルに対してこれを個別に検定する必要があります。

— B_Miner

マーケティングテストでもフレッチャーペーパーと同様のアプローチが使用され、介入（広告など）の効果を（a）ブランド購入数の変化（つまり、ゼロの割合）と（b）aバンドを購入する頻度の変化（販売を前提とした販売はまったく発生しません）。これは強固なアプローチであり、マーケティングの状況と生態学的な状況の中でフレッチャーが説明している概念的に意味があります。実際、これは（c）各購入のサイズの変更に拡張できます。

— zbicyclist
ソース

ありがとう！これの既存のr実装を知っているかどうか疑問に思いますか？

— a11msp 2011年

正確なゼロの数は不明ですが、0と観測されたゼロの数の間で制約されます。これは、モデルのベイジアン定式化を使用して確実に処理できます。多分補完法を調整して、ゼロ観測の重み（0と1の間）を適切に変更することもできます…

— ガボルグリア
ソース