タグ付けされた質問 「count-data」

カウントデータは、金額全体を表す負でない整数です。

1
平方根変換がカウントデータに推奨されるのはなぜですか?
カウントデータがある場合は、平方根を取ることをお勧めします。(CVのいくつかの例については、ここで@HarveyMotulskyの答え、またはここで@whuberの答えを参照してください。)一方、ポアソンとして分布した応答変数を使用して一般化線形モデルを近似する場合、ログは正規リンクです。これは、応答データのログ変換を行うようなものです(より正確には、応答分布を制御するパラメーターログ変換を行うことです)。したがって、これら2つの間には緊張があります。 λλ\lambda この(明らかな)矛盾をどのように調整しますか? 平方根が対数よりも優れているのはなぜですか?


1
ポアソンモデルの相互検証のエラーメトリック
カウントを予測しようとしているモデルを相互検証しています。これがバイナリ分類の問題である場合は、フォールドアウトAUCを計算し、これが回帰問題である場合は、フォールドアウトRMSEまたはMAEを計算します。 ポアソンモデルの場合、サンプル外予測の「精度」を評価するためにどのエラーメトリックを使用できますか?AUCのポアソン拡張で、予測が実際の値をどの程度適切に並べるかを調べますか? カウントのための多くのKaggleコンテスト(たとえば、yelpレビューで得られる有用な投票数、または患者が病院で過ごす日数)は、二乗平均平方根誤差、またはRMLSEを使用しているようです。 /編集:私がやっていることの1つは、予測値の10分の1を計算してから、十分な数でビニングされた実際のカウントを調べることです。十分位数1が低く、十分位数10が高く、その間の十分位数が厳密に増加している場合、モデルを「良い」と呼んでいますが、このプロセスを定量化するのに苦労しており、より良い方法があると確信していますアプローチ。 /編集2:予測値と実際の値を取得し、「エラー」または「精度」メトリックを返す数式を探しています。私の計画は、交差検証中にフォールド外データでこの関数を計算し、それを使用してさまざまなモデル(ポアソン回帰、ランダムフォレスト、GBMなど)を比較することです。 たとえば、そのような関数の1つですRMSE = sqrt(mean((predicted-actual)^2))。別のそのような関数はAUCです。どちらの関数もポアソンデータには適切でないようです。

3
「ハードルモデル」は本当に1つのモデルですか?または、2つの別個の順次モデルだけですか?
y通常の予測子からカウントデータを予測するハードルモデルを考えますx。 set.seed(1839) # simulate poisson with many zeros x <- rnorm(100) e <- rnorm(100) y <- rpois(100, exp(-1.5 + x + e)) # how many zeroes? table(y == 0) FALSE TRUE 31 69 この場合、69個のゼロと31個の正のカウントを持つカウントデータがあります。私の質問はハードルモデルに関するものであるため、これはデータ生成手順の定義によりポアソンプロセスであるということは今のところ気にしないでください。 これらの過剰なゼロをハードルモデルで処理したいとします。それらについての私の読書から、ハードルモデルはそれ自体が実際のモデルではないように思われました。彼らはただ2つの異なる分析を連続して行っているだけです。最初に、値が正であるかゼロであるかを予測するロジスティック回帰。第二に、ゼロ以外のケースのみを含むゼロ切り捨てポアソン回帰。この2番目のステップは、(a)完全に適切なデータを破棄し、(b)データの多くがゼロであるため電力の問題につながる可能性があり、(c)基本的にそれ自体が「モデル」ではないため、間違っていると感じました、ただし2つの異なるモデルを順番に実行するだけです。 そこで、ロジスティックとゼロ打ち切りポアソン回帰を別々に実行するのではなく、「ハードルモデル」を試しました。彼らは私に同じ答えを与えました(簡潔にするために出力を省略しています): > # hurdle output > summary(pscl::hurdle(y ~ x)) Count model coefficients (truncated poisson with …

2
一般化線形(混合)モデル(特に残差)の診断
現在、困難なカウントデータ(従属変数)に適したモデルを見つけるのに苦労しています。lmerand などのさまざまな異なるモデル(混合効果モデルが私の種類のデータに必要です)lme4や、Gaussianや負の二項分布などのさまざまなファミリを持つ一般化線形混合効果モデルを試しました。 しかし、結果の適合をどのように正しく診断するかについてはかなり確信が持てません。Webでそのトピックについて多くの異なる意見を見つけました。線形(混合)回帰の診断は非常に簡単だと思います。先に進んで残差(正規性)を分析し、残差と比較した近似値をプロットすることで不均一分散性を調べることができます。 ただし、一般化バージョンではどのように適切に行うのですか?今のところ、負の二項(混合)回帰に注目しましょう。私はここで残差に関するまったく反対の声明を見ました: では一般化線形モデルにおける正規の残差チェック、それはプレーンな残差が正常にGLMために配布されていないことを最初の回答で指摘されているが、これは明らかだと思います。ただし、ピアソンおよび逸脱残差も正常であるとは想定されていないことが指摘されています。それでも、2番目の答えは、逸脱の残差を正規に分布する必要があることを示しています(参照と組み合わせて)。 ただし、逸脱残差を正規分布で分布させる必要があることは、?glm.diag.plots(Rのbootパッケージから)のドキュメントで示唆されています。 で、このブログの記事、著者は最初のNB混合効果回帰モデルのためのピアソン残差は、私が想定し何の正常性を研究しています。予想通り(私の意見では)、残差は正常であるとは示されず、著者はこのモデルが不適切であると仮定しました。ただし、コメントで述べたように、残差は負の二項分布に従って分布する必要があります。私の意見では、GLM残差は通常の分布とは異なる分布を持つ可能性があるため、これは真実に最も近くなります。これは正しいです?ここで異分散のようなものをチェックする方法は? 最後の点(推定分布の変位値に対する残差のプロット)は、Ben&Yohai(2004)で強調されています。現在、これは私のために行く方法のようです。 簡単に言うと、特に残差に焦点を当てて、一般化線形(混合)回帰モデルのモデル適合をどのように適切に研究しますか?

2
負の二項分布の連続一般化
負の二項分布は非負の整数で定義され、確率質量関数f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.同じ式(k∈N0k∈N0k\in \mathbb N_0をx \ in \ mathbb R _ {\ ge 0}で置き換える)で定義された非負の実数上の連続分布を考慮することは意味がありx∈R≥0x∈R≥0x\in\mathbb R_{\ge 0}ますか?二項係数は(k + 1)\ cdot \ ldots \ cdot(k + r-1)の積として書き換えることができます(k+1)⋅…⋅(k+r−1)(k+1)⋅…⋅(k+r−1)(k+1)\cdot\ldots\cdot(k+r-1)。これは任意の実数kに対して明確に定義されていますkkk。したがって、PDF f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}. より一般的には、二項係数をガンマ関数で置き換えて、rの非整数値を許可できますrrr。 f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)\propto\frac{\Gamma(x+r)}{\Gamma(x+1)\Gamma(r)}\cdot p^{x}(1-p)^{r}. 有効な配布ですか?名前はありますか?用途はありますか?多分化合物か混合物か?平均と分散(およびPDFの比例定数)の閉じた式はありますか? (現在、NB混合モデル(固定r=2r=2r=2)を使用してEMで近似する論文を研究しています。ただし、データは、正規化後の整数、つまり整数ではありません。可能性と非常に合理的な結果を得るので、すべてがうまく機能しているようです。私はそれが非常に不可解であることがわかりました。この質問はNB GLM に関するものではないことに注意してください。

4
これは、自殺カウントデータの季節的影響をテストする適切な方法ですか?
私は、米国の州の自殺による死亡に関連する17年(1995年から2011年)の死亡証明書データを持っています。確認しましたが、使用した方法の明確な感覚や結果に対する自信が得られません。 そのため、データセット内の特定の月に自殺が多かれ少なかれ発生する可能性があるかどうかを判断できるかどうかを確認しました。私の分析はすべてRで行われます。 データに含まれる自殺者の総数は13,909人です。 自殺が最も少ない年を見ると、309/365日(85%)に発生します。自殺が最も多い年を見ると、それらは339/365日(93%)に発生しています。 したがって、毎年自殺のないかなりの日数があります。ただし、17年間すべてで集計すると、2月29日を含む1年の毎日に自殺があります(平均が38の場合は5人のみ)。 1年の各日に自殺者の数を単純に合計しても、明確な季節性を示すものではありません(私の目には)。 月ごとのレベルで集計すると、月あたりの平均自殺者の範囲は次のとおりです。 (m = 65、sd = 7.4、m = 72、sd = 11.1) 私の最初のアプローチは、すべての年の月ごとにデータセットを集計し、月ごとの自殺数に系統的な分散がないという帰無仮説の予想確率を計算した後、カイ二乗検定を行うことでした。日数を考慮して(そしてうるう年の2月を調整して)各月の確率を計算しました。 カイ2乗の結果は、月ごとに大きな変動がないことを示しています。 # So does the sample match expected values? chisq.test(monthDat$suicideCounts, p=monthlyProb) # Yes, X-squared = 12.7048, df = 11, p-value = 0.3131 下の画像は、1か月あたりの合計数を示しています。水平の赤い線は、それぞれ2月、30日月、31日月の期待値に配置されています。カイ2乗検定と一致して、予想カウントの95%信頼区間外にある月はありません。 時系列データの調査を開始するまで、私は終わったと思いました。多くの人が想像するstlように、statsパッケージの関数を使用したノンパラメトリック季節分解法から始めました。 時系列データを作成するには、集約された月次データから始めました。 suicideByMonthTs <- ts(suicideByMonth$monthlySuicideCount, start=c(1995, 1), end=c(2011, 12), frequency=12) …

9
カウント<20のカウントデータの時系列
私は最近結核クリニックで働き始めました。現在治療中の結核症例の数、投与された検査の数などについて定期的に話し合います。何かが異常であるかどうかを推測するだけではないように、これらのカウントのモデリングを開始したいと思います。残念ながら、私は時系列のトレーニングをほとんど受けていませんでした。私の露出のほとんどは、非常に連続的なデータ(株価)または非常に多くのカウント(インフルエンザ)のモデルを扱ってきました。ただし、月ごとに0〜18のケース(平均6.68、中央値7、変数12.3)を扱い、次のように配布されます。 [時間の霧に負けたイメージ] [グルーに食われるイメージ] このようなモデルに対処する記事をいくつか見つけましたが、これらのアプローチを実装するために使用できるアプローチとRパッケージの両方について、あなたからの提案を聞いていただければ幸いです。 編集: mbqの答えは、私がここで何を求めているかについて、より慎重に考えることを余儀なくさせました。私は毎月のカウントに夢中になりすぎて、質問の実際の焦点を失いました。私が知りたいのは、たとえば2008年以降の(かなり目に見える)減少は、症例の総数の減少傾向を反映していますか?2001年から2007年までの毎月の症例数は安定したプロセスを反映しているように思えます。多少の季節性があるかもしれませんが、全体的に安定しています。2008年から現在まで、そのプロセスは変化しているように見えます。ランダム性と季節性により毎月のカウントが上下する可能性がある場合でも、ケースの総数は減少しています。プロセスに実際の変更があるかどうかをテストするにはどうすればよいですか?そして、衰退を特定できれば、

1
カウントデータにポアソンvs幾何vs負の二項GLMを使用する場合
GLMフレームワーク内で、どの回帰タイプ(幾何、ポアソン、負の二項)をカウントデータと共に使用するのが適切な場合、自分でレイアウトしようとしています(8つのGLM分布のうち3つだけがカウントデータに使用されますが、負の二項分布とポアソン分布を中心に読みました)。 カウントデータにポアソンvs幾何vs負の二項GLMを使用する場合 これまでのところ、次のロジックがあります:データをカウントしますか?はいの場合、平均と分散は等しくありませんか?はいの場合、負の二項回帰。いいえの場合、ポアソン回帰。ゼロインフレはありますか?はいの場合、ゼロ膨張ポアソンまたはゼロ膨張負の二項。 質問1いつ使用するかについて明確な指示がないようです。その決定を知らせる何かがありますか?私が理解していることから、ZIPに切り替えると、平均分散が等しいという仮定が緩和されるため、再びNBとかなり似たものになります。 質問2幾何学ファミリをこれに当てはめる場所、または回帰で幾何学ファミリを使用するかどうかを決定する際に、どのような種類の質問をデータに求めるべきですか? 質問3負の二項分布とポアソン分布を常に交換しているが、幾何学的ではない人がいるので、いつ使用するかについて明確に異なるものがあると推測しています。もしそうなら、それは何ですか? PS 議論のために人々がそれをコメント/微調整したい場合、私は現在の理解の図(編集可能)を(おそらくは簡略化して)作成しました。

1
カウントデータでの外れ値の検出
私は、多くの異なるカウントデータセットの外れ値の検出を伴う、かなり単純な問題であると単純に考えたものがあります。具体的には、一連のカウントデータ内の1つ以上の値が、分布内の残りのカウントと比較して予想よりも高いか低いかを判断します。 交絡要因は、3,500の分布に対してこれを行う必要があることであり、それらの一部はゼロ膨張した過分散ポアソンに適合する可能性がありますが、他のものは負の二項分布またはZINBに最も適合する可能性がありますが、他の分布は正規分布する可能性があります。このため、単純なZスコアまたは分布のプロットは、多くのデータセットには適していません。外れ値を検出するカウントデータの例を次に示します。 counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0 0 0 0 0 1 2 1 1 1 1 1 1 …

3
Rのゼロ膨張負の二項混合効果モデル
Rでゼロ膨張した負の二項混合効果モデル推定を提供するようなパッケージはありますか? ということは: パッケージpsclの関数zeroinflのように、ゼロインフレの二項モデルを指定できるゼロインフレ: zeroinfl(y〜X | Z、dist = "negbin") ここで、Zはゼロインフレモデルの式です。 モデルのカウント部分の負の二項分布。 パッケージlme4の関数lmerと同様に指定されたランダム効果。 glmmADMBはそれをすべて実行できることを理解していますが、ゼロインフレーションの式を指定することはできません(これは単なる切片です。つまり、Zは1になります)。しかし、それをすべて実行できる他のパッケージはありますか? あなたの助けにとても感謝します!

2
カウントデータと過剰分散を伴う回帰におけるポアソンまたは準ポアソン?
カウントデータがあります(多くの要因に応じて、場合によっては顧客の数をカウントするデマンド/オファー分析)。通常のエラーで線形回帰を試みましたが、QQプロットはあまり良くありません。答えのログ変換を試みました:もう一度、悪いQQプロット。 だから今、私はポアソンエラーで回帰を試みています。すべての重要な変数を含むモデルでは、次のようになります。 Null deviance: 12593.2 on 53 degrees of freedom Residual deviance: 1161.3 on 37 degrees of freedom AIC: 1573.7 Number of Fisher Scoring iterations: 5 残留偏差は、残留自由度よりも大きくなります。過剰分散があります。 準ポアソンを使用する必要があるかどうかを知るにはどうすればよいですか?この場合の準ポアソンの目標は何ですか?クローリーによる「The R Book」でこのアドバイスを読みましたが、私の場合、その点や大きな改善は見当たりません。

1
2つのカウント間の差の有意性
時間1での交通事故の件数と時間2での件数との差が大幅に異なるかどうかを判断する方法はありますか? 異なる時点での観測グループ間の差を決定する方法(ポアソン平均の比較など)を見つけましたが、2つのカウントのみを比較する方法は見つけませんでした。それとも試してみても無効ですか?アドバイスや指示をいただければ幸いです。私は自分自身をフォローアップすることを嬉しく思います。

2
カウントデータを独立変数として使用すると、GLMの前提に違反しますか?
ロジスティック回帰モデルをあてはめながら、共変量としてカウントデータを使用したいと思います。私の質問は: カウント、非負の整数変数を独立変数として採用することにより、ロジスティック(および、より一般的には、一般化された線形)モデルの仮定に違反しますか? 文献では、結果としてホットカウントデータを使用することに関する多くの参考文献を見つけましたが、共変量としてではありません。たとえば、非常に明確な論文を参照してください:「NE Breslow(1996)Generalized Linear Models:Checking Assumptions and Strengthening Conslusions、Congresso Nazionale Societa Italiana di Biometria、Cortona June 1995」、http://biostat.georgiahealth.edu/~dryuで入手可能 /course/stat9110spring12/land16_ref.pdf。 大まかに言うと、glmの仮定は次のように表現されるようです。 iid残差; リンク関数は、従属変数と独立変数の間の関係を正しく表す必要があります。 外れ値の欠如 カウント共変量を扱うために他のタイプのモデルを使用することを示唆する他の仮定/技術的な問題が存在するかどうか誰もが知っていますか? 最後に、私のデータには比較的少ないサンプル(&lt;100)が含まれており、カウント変数の範囲は3から4桁以内で変化することに注意してください(つまり、一部の変数の値は0から10の範囲ですが、他の変数の値は0-10000)。 簡単なRのサンプルコードを次に示します。 \########################################################### \#generating simulated data var1 &lt;- sample(0:10, 100, replace = TRUE); var2 &lt;- sample(0:1000, 100, replace = TRUE); var3 &lt;- sample(0:100000, 100, replace = TRUE); …

2
カウントの標準誤差
まれな病気の季節ごとの事件のデータセットがあります。たとえば、春に180件、夏に90件、秋に45件、冬に210件あったとします。これらの数値に標準エラーを添付することが適切かどうかに苦労しています。研究目標は、将来再発する可能性のある疾患発生率の季節的パターンを探しているという意味で推測的です。したがって、合計に不確実性の尺度を付けることが可能であるべきであるように直感的に感じます。ただし、この場合、標準誤差をどのように計算するかはわかりません。なぜなら、平均や比率ではなく単純なカウントを扱っているからです。 最後に、答えは、データがケースの集団(発生したすべてのケース)を表すか、ランダムなサンプルを表すかによって異なりますか?間違っていなければ、推論がないため、母集団統計で標準エラーを提示することは一般的に意味がありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.