タグ付けされた質問 「count-data」

カウントデータは、金額全体を表す負でない整数です。

4
ゼロ切り捨て負の二項GEEのR / Stataパッケージ?
これは私の最初の投稿です。このコミュニティに本当に感謝しています。 ゼロが切り捨てられた縦断カウントデータ(応答変数= 0が0である確率)と平均!=分散を分析しようとしているため、ポアソンに対して負の二項分布が選択されました。 私が除外した機能/コマンド: R Rのgee()関数は、ゼロ切り捨ても負の二項分布も考慮しません(MASSパッケージがロードされていなくても) Rのglm.nb()は、異なる相関構造を許可しません VGAMパッケージのvglm()はposnegbinomialファミリーを利用できますが、非独立相関構造を使用してモデルを再適合できないという点で、Stataのztnbコマンド(以下を参照)と同じ問題があります。 スタタ データが縦方向ではない場合、Stataパッケージztnbを使用して分析を実行できますが、そのコマンドは私の観測が独立していると想定しています。 また、さまざまな方法論的/哲学的理由からGLMMを除外しました。 今のところ、Stataのxtgeeコマンドで解決しました(はい、xtnbregも同じことを知っています)。これは、非独立相関構造と負の二項族の両方を考慮しますが、ゼロ切り捨ては考慮しません。xtgeeを使用することの追加の利点は、(qicコマンドを使用して)qic値を計算して、応答変数に最適な相関構造を決定できることです。 RまたはStataに1)nbinomialファミリ、2)GEE、および3)ゼロ切り捨てを考慮に入れることができるパッケージ/コマンドがある場合、私は知りたくなります。 あなたが持っているかもしれないアイデアを大いに感謝します。ありがとうございました。 -ケーシー

1
ポアソンモデルと準ポアソンモデルで推定された同一の係数
保険環境で請求件数データをモデル化する際に、私はポアソンから始めましたが、その後、過剰分散に気付きました。準ポアソンは、基本的なポアソンよりも大きい平均分散関係をよりよくモデル化しましたが、係数はポアソンモデルと準ポアソンモデルの両方で同一であることに気付きました。 これがエラーでない場合、なぜこれが起こっているのですか?ポアソンよりも準ポアソンを使用する利点は何ですか? 注意事項: 根本的な損失は過剰ベースであり、それが(私は)Tweedieの動作を妨げました-しかし、それは私が試した最初の分布でした。また、NB、ZIP、ZINB、およびハードルモデルを調べましたが、それでもQuasi-Poissonが最適であることがわかりました。 AERパッケージのdispersiontestを使用して過分散をテストしました。私の分散パラメーターは約8.4で、p値は10 ^ -16の大きさでした。 family = poissonまたはquasipoissonでglm()を使用し、コードのログリンクを使用しています。 ポアソンコードを実行すると、「In dpois(y、mu、log = TRUE):non-integer x = ...」という警告が表示されます。 Benのガイダンスによる有用なSEスレッド: ポアソン回帰におけるオフセットの基本的な数学 係数のオフセットの影響 共変量としての露出とオフセットの使用の違い

1
混合効果-ZINBまたはその他のデータを含むカウントデータに適したモデルを見つけるのに問題がありますか?
孤独な蜂の豊富さに関する非常に小さなデータセットがあり、分析に問題があります。これはカウントデータであり、ほとんどすべてのカウントが1つの処理で行われ、ほとんどのゼロは他の処理で行われます。また、2つの非常に高い値(6つのサイトのうち2つに1つ)があるため、カウントの分布には非常に長いテールがあります。私はRで働いています。lme4とglmmADMBの2つの異なるパッケージを使用しました。 ポアソン混合モデルは適合しませんでした:ランダム効果が適合していない場合(glmモデル)、モデルは非常に過分散であり、ランダム効果が適合している場合(glmerモデル)は分散不足でした。これがなぜなのか分かりません。実験的な設計では、入れ子になったランダム効果が必要なので、それらを含める必要があります。ポアソン対数正規誤差分布は、適合を改善しませんでした。glmer.nbを使用して負の二項誤差分布を試みましたが、適合させることができませんでした。glmerControl(tolPwrss = 1e-3)を使用して許容値を変更しても、反復制限に達しました。 多くのゼロは、単にミツバチが見えなかったという事実によるものであるため(多くの場合、小さな黒いものです)、ゼロ膨張モデルを試しました。ZIPはうまく適合しませんでした。ZINBはこれまでのところ最高のモデルフィットでしたが、モデルのフィットにはまだ満足していません。次に何をしようか迷っています。ハードルモデルを試しましたが、切り捨てられた分布をゼロ以外の結果に適合させることができませんでした。ゼロの多くが制御処理にあるためだと思います(エラーメッセージは「Model.frame.default(formula = s.bee〜tmt + lu +:可変長が異なります(「治療」で見つかった))。 さらに、含まれる相互作用は、係数が非現実的に小さいため、データに対して奇妙なことをしていると思います。ただし、パッケージbbmleでAICctabを使用してモデルを比較した場合、相互作用を含むモデルが最適でした。 データセットをほぼ再現するRスクリプトを含めています。変数は次のとおりです。 d =ユリウス日、df =ユリウス日(要因として)、d.sq = dfの2乗(ミツバチの数が増加し、夏中に減少する)、st = site、s.bee =ミツバチの数、tmt = treatment、lu =土地利用のタイプ、hab =周囲の景観における半自然の生息地の割合、ba =境界地域のラウンドフィールド。 良いモデルの適合(代替エラー分布、異なるタイプのモデルなど)を得る方法についての提案は非常にありがたいです! ありがとうございました。 d <- c(80, 80, 121, 121, 180, 180, 86, 86, 116, 116, 144, 144, 74, 74, 143, 143, 163, 163, 71, 71,106, 106, …

3
ランダムフォレストによるカウントデータの予測
ランダムフォレストをトレーニングして、カウントデータを適切に予測できますか?これはどのように進みますか?私は非常に広範囲の値を持っているので、分類は実際には意味をなしません。回帰を使用する場合、結果を切り捨てますか?私はここでかなり迷っています。何か案は?

3
過剰分散カウントデータのポアソン回帰の代替方法の選択
私は現在、すべてが次の指標を使用する一連の行動実験からのデータを分析しています。この実験の参加者は、一連の10個のアナグラムを解決するのに(架空の)他の人が使用できる手がかりを選択するように求められます。参加者は、アナグラムを解く際のパフォーマンスに応じて、これらの他の人々がお金を稼ぐか失うかを信じるように導かれます。手がかりは、それらがどれほど役立つかによって異なります。たとえば、RUNNINGのアナグラムであるアナグラムNUNGRINの場合、3つの手がかりがあります。 素早く動く(役に立たない) マラソンレースで行うこと(参考) 必ずしも健康的な趣味ではない(役に立たない) メジャーを形成するために、参加者が他の人にとって役に立たない手がかりを選択した回数(10回のうち)をカウントします。実験では、さまざまな異なる操作を使用して、人々が選択する手がかりの有用性に影響を与えています。 有用性/有用性の尺度はかなり強く正に歪んでいるため(多くの人が常に最も有用な10の手がかりを選択します)、またこの尺度はカウント変数であるため、これらのデータを分析するためにポアソン一般化線形モデルを使用しています。しかし、ポアソン回帰についてさらに読むと、ポアソン回帰は独立して分布の平均と分散を推定しないため、データセットの分散を過小評価することが多いことを発見しました。準ポアソン回帰や負の二項回帰など、ポアソン回帰の代替案を調査し始めました。しかし、私はこの種のモデルにはかなり慣れていないので、アドバイスを求めてここに来ています。 この種のデータに使用するモデルに関する推奨事項はありますか?私が知っておくべき他の考慮事項はありますか(たとえば、ある特定のモデルは他のモデルよりも強力ですか?)選択したモデルがデータを適切に処理しているかどうかを判断するには、どのような診断を検討する必要がありますか?

2
カウントデータの分散のパラメトリックモデリング
いくつかのデータをモデル化することを検討していますが、使用できるモデルのタイプがわかりません。カウントデータがあり、データの平均と分散の両方のパラメトリック推定値を提供するモデルが必要です。つまり、さまざまな予測因子があり、それらのいずれかが(グループ平均だけでなく)分散に影響するかどうかを判断したいのです。 分散が平均に等しいため、ポアソン回帰が機能しないことを知っています。私の場合、この仮定は有効ではないので、過剰分散があることを知っています。ただし、負の二項モデルは単一の過分散パラメーターのみを生成し、モデル内の予測変数の関数ではありません。どのモデルがこれを行うことができますか? さらに、モデルおよび/またはモデルを実装するRパッケージについて説明している書籍または論文への参照を歓迎します。


4
この場合、ポアソン回帰には線形回帰よりもどのような利点がありますか?
ある高校の生徒が獲得した賞の数を含むデータセットが与えられました。獲得した数の予測には、学生が登録されたプログラムのタイプと数学の最終試験のスコアが含まれます。 なぜこの例では線形回帰モデルが適さないのか、そしてなぜポアソン回帰を使用する方が良いのか、誰かが教えてくれるのではないかと思いました。ありがとう。

3
カウントデータの回帰モデルの比較
私は最近、同じ予測子/応答データに対して4つの多重回帰モデルを当てはめました。私がポアソン回帰で近似した2つのモデル。 model.pois <- glm(Response ~ P1 + P2 +...+ P5, family=poisson(), ...) model.pois.inter <- glm(Response ~ (P1 + P2 +...+ P5)^2, family=poisson(), ...) 私が負の二項回帰で近似するモデルの2つ。 library(MASS) model.nb <- glm.nb(Response ~ P1 + P2 +...+ P5, ...) model.nb.inter <- glm.nb(Response ~ (P1 + P2 +...+ P5)^2, ...) これらのモデルを比較するために使用できる統計検定はありますか?私はAICをフィットの尺度として使用してきましたが、これは実際のテストを表すものではありません。

2
ポアソン回帰の仮定とそれらをRでテストする方法
どの回帰が私のデータに最適であるかをテストしたいと思います。私の従属変数はカウントであり、ゼロがたくさんあります。 また、使用するモデルとファミリ(ポアソンまたは準ポアソン、またはゼロ膨張ポアソン回帰)と、仮定をテストする方法を決定するためにいくつかの助けが必要になります。 ポアソン回帰:私が理解している限り、強い仮定は、従属変数の平均=分散であるというものです。これをどのようにテストしますか?彼らはどのくらい近くにいる必要がありますか?これには無条件または条件付きの平均と分散が使用されますか?この仮定が当てはまらない場合はどうすればよいですか? 分散が平均よりも大きい場合、分散が過剰であり、これに対処するための潜在的な方法は、より多くの独立変数、またはfamily = quasipoissonを含めることです。この分布には他の要件や前提条件がありますか?(1)と(2)のどちらがより適しているかを確認するには、どのテストを使用しますかanova(m1,m2)? また、過剰分散が発生した場合、負の二項分布を使用できることも読みました。Rでこれを行うにはどうすればよいですか?quasipoissonとの違いは何ですか? ゼロ膨張ポアソン回帰:vuongテストを使用して、どのモデルがより適切に適合するかを確認したことを読みました。 > vuong (model.poisson, model.zero.poisson) あれは正しいですか?インフレがゼロの回帰にはどのような仮定がありますか? UCLAのAcademic Technology Services、Statistical Consulting Groupには、ゼロインフレーションポアソン回帰に関するセクションがあり、標準ポアソンモデル(b)に対してゼロインフレーションモデル(a)をテストします。 > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb) > m.b <- glm(count ~ child + camper, family = poisson, data = zinb) > vuong(m.a, m.b) | persons最初のモデルの部分が何をするのか、なぜこれらのモデルを比較できるのか理解できません。回帰は同じであり、別のファミリーを使用することを期待していました。

2
非常に歪んだカウントデータのクラスタリング:実行するための提案(変換など)?
基本的な問題 これが私の基本的な問題です。非常にゆがんだ変数とカウントを含むデータセットをクラスター化しようとしています。変数には多くのゼロが含まれているため、私のクラスタリング手順(K平均アルゴリズムの可能性が高い)ではあまり情報がありません。 細かいことは、平方根、ボックスコックス、または対数を使用して変数を変換するだけです。しかし、私の変数はカテゴリー変数に基づいているので、(カテゴリー変数の1つの値に基づいて)変数を処理し、他の変数(カテゴリー変数の他の値に基づいて)をそのままにして、バイアスを導入するのではないかと心配しています。 。 もう少し詳しく見ていきましょう。 データセット 私のデータセットはアイテムの購入を表します。アイテムには、たとえば色:青、赤、緑など、さまざまなカテゴリがあります。購入は、たとえば顧客ごとにグループ化されます。これらの各顧客は、データセットの1行で表されるため、顧客に対する購入を何らかの方法で集計する必要があります。 私がこれを行う方法は、アイテムが特定の色である購入の数を数えることです。だからではなく、単一の変数のcolor、私は三つの変数で終わるcount_red、count_blueとcount_green。 以下に例を示します。 ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | 4 | 0 | ----------------------------------------------------------- c2 | 2 | 21 | 0 | ----------------------------------------------------------- c3 | 4 | …

2
変数をカウントデータとしてスケーリング-正しいかどうか?
この論文(PubMedの中心を介して自由に入手可能)、著者らは、0-40を獲得10項目スクリーニング機器でスコアをモデル化するために負の二項回帰を使用します。この手順ではカウントデータを想定していますが、ここでは明らかにそうではありません。私の仕事では同じ楽器や類似の楽器を使用することがあるので、このアプローチが受け入れられるかどうかについてあなたの意見をお願いします。そうでない場合は、許容できる代替案があるかどうか知りたいのですが。以下の詳細: 使用されている尺度は、アルコール使用障害の識別テスト(AUDIT)です。これは、アルコール使用障害と危険/有害な飲酒のスクリーニング装置として設計された10項目のアンケートです。楽器のスコアは0〜40で、結果は通常、左に大きく歪んでいます。 私の理解では、カウントデータの使用は、「カウント」されるすべての値が互いに独立していることを前提としています-毎日緊急病棟に来る患者、特定のグループの死亡者数など-それらはすべて互いに独立しています。基礎となる変数に依存していますが。さらに、カウントデータを使用する場合、最大許容カウントはあり得ないと思いますが、データの観測最大値と比較して理論最大値が非常に高い場合、この仮定は緩和できると思いますか? AUDITスケールを使用する場合、真のカウントはありません。合計スコアが最大40のアイテムが10個ありますが、実際にはその高いスコアはめったに見られません。アイテムのスコアは自然に相互に関連付けられます。 したがって、カウントデータを使用するために必要な前提条件に違反しています。しかし、これはまだ許容できるアプローチですか?仮定の違反はどのくらい深刻ですか?このアプローチがより受け入れられると考えられる特定の状況はありますか?スケール変数をカテゴリに減らすことを含まない、このアプローチの代替手段はありますか?

3
カウントデータで使用するのに最も適切な回帰モデルはどれですか。
私は統計に少し入り込もうとしていますが、何かに行き詰まっています。私のデータは次のとおりです。 Year Number_of_genes 1990 1 1991 1 1993 3 1995 4 ここで、データに基づいて任意の年の遺伝子数を予測できる回帰モデルを構築したいと思います。これまでは線形回帰を使用して行いましたが、ある程度の読み取りを行ったため、この種のデータには最適ではないようです。私はポアソン回帰が役に立つかもしれないことを読みましたが、何を使うべきかわかりません。だから私の質問は: この種のデータの一般的な回帰モデルはありますか?いいえの場合、どの方法を使用するのが最も適切かを見つけるために何をしなければなりませんか(データについて何を調べなければならないかという点で)?

2
ホッケー選手が記録した総キャリア目標を予測するときにポアソン回帰でオフセットを使用するかどうか
オフセットを使用するかどうかについて質問があります。ホッケーのゴールの(全体的な)数を記述したい非常に簡単なモデルを想定します。つまり、ゴール、プレイしたゲームの数、およびダミー変数「ストライカー」があり、プレーヤーがストライカーの場合は1、それ以外の場合は0になります。次のモデルのどれが正しく指定されていますか? Goals = games + striker、または ゴール=オフセット(ゲーム)+ストライカー 繰り返しになりますが、目標は全体的な目標であり、ゲームの数は1人のプレーヤーの全体的なゲームです。たとえば、100ゲームで50ゴールを獲得したプレーヤーと、50ゲームで20ゴールを獲得した別のプレーヤーがいる場合などです。 目標の数を見積もるにはどうすればよいですか?ここでオフセットを使用する必要がありますか? 参照: 一般にポアソン回帰でオフセットを使用する場合について説明しているこの前の質問を参照してください。

3
一部の観測値のオフセット変数が0であるカウントデータのモデリング
私は同僚の学生を助けようとしています。学生は実験的なセットアップで鳥の行動(鳴き声の数)を観察して数えました。各実験中に特定の観察された鳥に起因する呼び出しの数は特定できませんでしたが、記録された呼び出しの数に貢献した鳥の数を数えることは可能でした。したがって、私の最初の提案は、鳥の数をポアソンGLMモデルのオフセット項として含めることでした。そのため、鳥ごとの予想される呼び出し数を当てはめます。 log(0)=−inflog⁡(0)=−inf\log(0) = -\infy-Infoffset(log(nbirds))-Inf 私は実際に、「観測されたコール」のための別個の二項モデルがあるハードルモデル(または同様のモデル)が必要だと思います。(またはそうでない)と、呼び出しがあった状況での(鳥ごとの)呼び出し数の切り捨てカウントモデル。オフセット項はモデルのカウント部分にのみ含めます。 R のpsclパッケージを使用してこれを試しましたが、それでも同じエラーが発生します。 mod1 <- hurdle(NumberCallsCOPO ~ Condition * MoonVis + offset(log(NumberCOPO)) | 1, data = Data, dist = "poisson") 同じRコード(カウントモデルパーツを適合glm.fitさhurdle()せるためにによって内部的に使用されます)がチェックし-Infているのは、これらの観測に対するモデルの適合に影響を与えるとは思わないからです。(それは正しい仮定ですか?) NumberCOPO(たとえば0.0001)に小さな数を追加することでモデルをフィットさせることができますが、これはせいぜいファッジです。 この小さな導通補正を追加しても実際には問題ないでしょうか?そうでない場合、Poissonモデルでオフセット変数を使用して値を0にできるデータを処理するときに、他にどのようなアプローチを検討する必要がありますか?私が遭遇したすべての例は、オフセット変数に0が不可能な状況のためのものです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.