統計とビッグデータ count-data

1

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。 2年前休業。次のコード PredictNew <- predict (glm.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) 3列のdata.frame--PredictNew、近似値、標準誤差、残差スケール項を生成します。パーフェクト...しかし、以下を備えたモデルを使用しzeroinfl {pscl}ます： PredictNew <- predict (zeroinfl.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) または PredictNew <- predict (zeroinfl.fit, newdata = Predict, …

9 r generalized-linear-model count-data zero-inflation

1

連続データとカウントデータの相関

このデータセットを扱っているとします。ここで、は連続変数（たとえば、指数）であり、は離散分布（たとえば、ポアソン）です。がと間の相関であるとしましょう。どうすれば定義できますか？ (Xi,Ni)(Xi,Ni)(X_i, N_i)XiXiX_iNiNiN_ii=1,...,ni=1,...,ni=1,...,nρρ\rhoXXXNNNρρ\rho

9 correlation count-data

6

カウントデータ（カテゴリデータ）をレートに変換した場合の処理方法

私は病気の感染データに取り組んでおり、そのデータを「カテゴリ」として処理するのか「継続」として処理するのか困惑しています。「感染数」特定の期間に見つかった感染症例の数、カウントはカテゴリデータから生成されます（つまり、「感染」としてタグ付けされた患者の数）「患者のベッドデイズ」その病棟内のすべての患者が病棟に滞在した合計日数の合計。ここでも、カウントはカテゴリカルデータから生成されます（つまり、「特定の病棟に滞在」としてタグ付けされた患者の数）「患者の病床日あたりの感染」「感染数」/「患者の病床日数」は、いずれも当初はカウントデータでしたが、現在は割合になっています質問：ここでカイ二乗を使用して、「患者の1日あたりの感染数」の差が統計的に有意であるかどうかを評価できますか？アップデート発生率を比較（または感染率と呼ぶ）できることを発見しましたが、「発生率の差」（IRD）や「発生率の比率」（IRR）などを実行しています。（ここから見つけました） IRDとt検定の違いは何ですか？ IRRを補足する統計的検定はありますか？

9 categorical-data count-data

1

ポアソン、精度、予測間隔の予測

Poissonグループ1-26 months of dataに応じて、グループ分けされたのデータを予測しようとしています。プールされたデータの65% has a value of 0や25% a value of 1。トレンドや季節性を見つけることができなかったので、いくつかの異なるステーショナリーモデルをテストし始めました。Moving average (3)、Moving Average (6)、Simple Exponential Smoothing、NaïveとSimple Mean。私は1-6カ月先に予想して使用する必要があるMAD、MSEとRMSEモデルの精度をテストします。最も正確なのと、平均シンプルであるように見えますRMSE of 1とMAD of 0,638。これは本当に高いと思いますが、どうすればよいのかわかりません。私が考えていなかった予測方法がありますか？私は何かを見落としているか？私は予測区間については見つけることができた唯一のものだったF+tsとF-tsしてF、予想通りtとt分布としてalfa (n-2)およびs標準偏差など。本当に信頼できるソースだとは思わないが、他に何も見つからなかったため、これらの予測間隔の設定方法がわからない。この方法は正しいですか？使用するRがありません。自分でやる必要があります。

8 time-series forecasting count-data prediction-interval intermittent-time-series

4

確率的な中断の犠牲になることなく、時間の経過とともに生産性または費用を理解する

ここで私を助けてください。おそらく私に答えを与える前に、私が質問をするのを手助けする必要があるかもしれません。私は時系列分析について学んだことがなく、それが本当に必要なものかどうかわかりません。私は時間平滑化平均について学んだことがなく、それが本当に私が必要とするものかどうかわかりません。私の統計の背景：私は生物統計学に12のクレジットを持っています（多重線形回帰、多重ロジスティック回帰、生存分析、多因子分散分析、ただし反復測定分析はありません）。以下のシナリオをご覧ください。私が検索すべき流行語は何ですか、そして私が学ぶ必要があることを学ぶためのリソースを提案できますか？まったく異なる目的でいくつかの異なるデータセットを確認したいのですが、それらすべてに共通するのは、1つの変数として日付があるということです。そのため、いくつかの例が思い浮かびます。時間の経過に伴う臨床生産性（手術の回数やオフィスへの訪問回数など）または時間の経過に伴う電気料金（電気会社に毎月支払われる金額など）上記の両方について、ほぼ普遍的な方法は、月または四半期のスプレッドシートを1つの列に作成し、もう1つの列に電気代や診療所で見られる患者の数などを作成することです。ただし、1か月に数えると意味のない多くのノイズが発生します。たとえば、通常は毎月28日に電気料金を支払うが、ある場合には忘れてしまい、その翌日3日の5日後にのみ支払う場合、1か月は費用がゼロであるかのように表示され、来月は莫大な費用が表示されます。支払いの実際の日付があるので、非常に細かいデータを暦月ごとに費用にボックス化して意図的に破棄するのはなぜでしょうか。同様に、私が会議に6日間出かける場合、その月は非常に非生産的であるように見え、それらの6日間が月末近くになると、待機リスト全体があるため、翌月は特徴的に忙しくなります。私に会いたかったが、私が戻るまで待たなければならなかった人々のそれからもちろん、明らかな季節変動があります。エアコンは電気をたくさん使うので、明らかに夏の暑さを調整する必要があります。何十億人もの子供たちが、冬の再発性急性中耳炎について私に紹介され、夏と初秋にはほとんど紹介されません。夏休みの後に学校が戻ってくる最初の6週間は、学齢期の子供が選択手術を受ける予定はありません。季節性は、従属変数に影響を与える1つの独立変数です。推測できる変数や未知の変数が他にもあるはずです。長年にわたる臨床研究への登録を見ると、さまざまな問題がたくさん発生します。イベントとその実際の日付を確認するだけで、実際には存在しない人工的なボックス（月/四半期/年）を作成せずに、時間の経過とともにこれを確認できる統計のブランチはどれですか。どんなイベントでも加重平均をすることを考えました。例えば、今週見られる患者数は、今週見られる0.5 * nr +先週見られる0.25 * nr +来週見られる0.25 * nrに等しい。これについてもっと知りたい。どのような流行語を検索する必要がありますか？

8 time-series finance count-data

1

ポアソン、二項、負の二項分布と正規分布の関係

離散カウント分布を定義する必要がある場合、通常は次を使用します。ポアソン分布、平均=分散の場合二項分布、平均の場合>分散負の二項分布、平均<分散の場合私の質問は、正規分布を使用して概算することは可能ですか？たとえば、ポアソン分布（平均= 4）を得るには、正規分布（平均=分散= 4）から始めます。 x=seq(0,20,1) plot(x,dpois(x,4)) points(x,dnorm(x,4,2),col=2) 2つの密度に大きな違いはないことがわかります。ここで、しきい値とルールを定義すると、次のようになります。通常の法則の結果が負の場合、それは0です x = 6.2の場合、6などになります。正規分布からこのような近似を使用して、ポアソン分布を完全に定義することは可能ですか？負の二項と二項についても同じことが言えます。なぜこれをしようとするのですか？通常、実際のデータでポアソン分布を定義しようとすると、平均=分散はありません。したがって、ポアソン分布を使用する場合、これはほぼこの条件があるためです。これらの3つのケースについて、（実際のデータから）推定された平均と分散を使用して議論する必要があります。だから、私の考えは常に使用することです正規分布を定義するための経験的平均と分散次に、これらのパラメータの関数でいくつかの「ルール」を定義しますシミュレートされた離散カウントデータの平均と分散を計算するために、初期の経験的平均と分散を検証できます。離散カウントデータをシミュレートする場合、ポアソン分布、二項分布、または負の二項分布を使用するのではなく、この方法についてどう思いますか？

7 normal-distribution binomial poisson-distribution negative-binomial count-data

1

フラクショナル従属変数：ポアソン回帰を使用しないのはなぜですか？

多くの設定で、部分従属変数を使用してモデルを推定することに関心があります。たとえば、Papke＆Wooldridge（1996）http://faculty.smu.edu/millimet/classes/eco6375/papers/papke%20wooldridge%201996.pdfでは、401（k）プランの参加率を検討します。PRATE=accountsemplyeesPRATE=accountsemplyeesPRATE=\frac{accounts}{emplyees}。次に、そのようなモデルを推定するGLMメソッドを作成します。カウントデータの文献を見ると、次のポアソン回帰を実行すべきではないのではないかと思います。accountsaccountsaccounts 同じリグレッサのセットで、オフセットとして employeesemployeesemployees。これは潜在的に絶対数に依存しますかaccountsaccountsaccounts？これは、推奨される複製とは異なります。カウントデータで使用するのに最も適切な回帰モデルはどれですか。私の質問は、オフセット/分母の正しい場所について説明しています。

7 count-data

タグ付けされた質問 「count-data」

タグ付けされた質問「count-data」