タグ付けされた質問 「poisson-distribution」

平均が分散と等しいという特性を持つ、非負の整数で定義された離散分布。

1
ポアソンモデルの相互検証のエラーメトリック
カウントを予測しようとしているモデルを相互検証しています。これがバイナリ分類の問題である場合は、フォールドアウトAUCを計算し、これが回帰問題である場合は、フォールドアウトRMSEまたはMAEを計算します。 ポアソンモデルの場合、サンプル外予測の「精度」を評価するためにどのエラーメトリックを使用できますか?AUCのポアソン拡張で、予測が実際の値をどの程度適切に並べるかを調べますか? カウントのための多くのKaggleコンテスト(たとえば、yelpレビューで得られる有用な投票数、または患者が病院で過ごす日数)は、二乗平均平方根誤差、またはRMLSEを使用しているようです。 /編集:私がやっていることの1つは、予測値の10分の1を計算してから、十分な数でビニングされた実際のカウントを調べることです。十分位数1が低く、十分位数10が高く、その間の十分位数が厳密に増加している場合、モデルを「良い」と呼んでいますが、このプロセスを定量化するのに苦労しており、より良い方法があると確信していますアプローチ。 /編集2:予測値と実際の値を取得し、「エラー」または「精度」メトリックを返す数式を探しています。私の計画は、交差検証中にフォールド外データでこの関数を計算し、それを使用してさまざまなモデル(ポアソン回帰、ランダムフォレスト、GBMなど)を比較することです。 たとえば、そのような関数の1つですRMSE = sqrt(mean((predicted-actual)^2))。別のそのような関数はAUCです。どちらの関数もポアソンデータには適切でないようです。

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
glmer出力の「固定効果の相関」をどのように解釈すればよいですか?
次の出力があります。 Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) AIC BIC logLik deviance 4062 4093 -2022 4044 Random effects: Groups Name Variance Std.Dev. landscape (Intercept) 0.82453 0.90804 Number of obs: 239, groups: landscape, 45 Fixed effects: Estimate Std. Error …

4
二項、負の二項、ポアソン回帰の違い
二項回帰、負の二項回帰、ポアソン回帰の違いに関する情報と、これらの回帰が最も適している状況を探しています。 SPSSで実行できるテストで、これらの回帰のうちどれが自分の状況に最適かを判断できますか? また、SPSSでポアソンまたは負の二項式を実行するにはどうすればよいですか?回帰部分に表示されるようなオプションはありませんか? 役に立つリンクがあれば、とても感謝しています。

2
データがRのポアソン分布に従うかどうかを知る方法は?
私は学部生で、確率クラスのプロジェクトを持っています。基本的に、私は一連の年の間私の国に影響を与えたハリケーンに関するデータセットを持っています。 私の確率ブック(Rの確率と統計)には、データがポアソン分布に従うかどうかを確認する方法の(完全ではない)例があり、これらの3つの基準が守られていることを証明しようとします:(私の本120(基準)122-123例) 1-重複しない間隔での結果の数は独立しています。つまり、時間間隔(0、t]の結果の数は、時間間隔(t、t + h]、h> 0の結果の数とは無関係です。 2-十分に短い間隔での2つ以上の結果の確率は実質的にゼロです。つまり、hが十分に小さい場合、間隔(t、t + h)で2つ以上の結果を得る確率は、同じ時間間隔で1つまたはゼロの結果を得る確率と比較して無視できます。 3-十分に短い間隔または小さな領域での正確に1つの結果の確率は、間隔または領域の長さに比例します。言い換えると、長さhの区間における1つの結果の確率はlambda * hです。 ただし、基準3は「演習」として残されています。 A-誰かが私のデータセットがポアソン分布に従うかどうかを確認するためのより「簡単な」方法があるかどうか教えてもらえますか? B-誰かが私に基準1と3をある種の例で説明してもらえますか(Rの場合は素晴らしい)。 ありがとう! 注:長い投稿で申し訳ありません。また、データを変換して、次のようなテーブルを作成する必要があります。 number of hurricanes | 0 | 1 | 2 etc. ----------------------------------------- total years that have | | | that number of hurricanes | | |

3
分散データが不十分な場合の適切なモデルは何ですか?
私は、明らかに分散が不十分なRのカウントデータをモデル化しようとしています(分散パラメーター〜.40)。これがおそらくglmwith family = poissonまたは負の二項(glm.nb)モデルが重要でない理由です。データの説明を見ると、カウントデータの典型的なスキューはなく、2つの実験条件の残差も均一です。 だから私の質問は: カウントデータが実際にカウントデータのように動作しない場合、カウントデータに特別な回帰分析を使用する必要さえありますか?私は時々非正規性に直面します(通常は尖度が原因です)が、非正規性を説明するためにトリム平均を比較するためにパーセンタイルブートストラップ法(Wilcox、2012)を使用しました。カウントデータのメソッドは、Wilcoxによって提案され、WRSパッケージで実現されている堅牢なメソッドに置き換えることができますか? カウントデータに回帰分析を使用する必要がある場合、分散不足をどのように説明しますか?ポアソン分布と負の二項分布はより高い分散を前提としているため、適切ではないでしょうか?準ポアソン分布を適用することを考えていましたが、通常は過剰分散に推奨されます。私は、Rのパッケージで過分散と過小分散を説明できると思われるベータ二項モデルについて読みましたVGAM。しかし、著者は、ティルドポアソン分布を推奨しているようですが、パッケージには見つかりません。 。 誰でもデータが分散していない場合の手順を推奨できますか?また、おそらくそのためのサンプルRコードを提供できますか?

9
カウント<20のカウントデータの時系列
私は最近結核クリニックで働き始めました。現在治療中の結核症例の数、投与された検査の数などについて定期的に話し合います。何かが異常であるかどうかを推測するだけではないように、これらのカウントのモデリングを開始したいと思います。残念ながら、私は時系列のトレーニングをほとんど受けていませんでした。私の露出のほとんどは、非常に連続的なデータ(株価)または非常に多くのカウント(インフルエンザ)のモデルを扱ってきました。ただし、月ごとに0〜18のケース(平均6.68、中央値7、変数12.3)を扱い、次のように配布されます。 [時間の霧に負けたイメージ] [グルーに食われるイメージ] このようなモデルに対処する記事をいくつか見つけましたが、これらのアプローチを実装するために使用できるアプローチとRパッケージの両方について、あなたからの提案を聞いていただければ幸いです。 編集: mbqの答えは、私がここで何を求めているかについて、より慎重に考えることを余儀なくさせました。私は毎月のカウントに夢中になりすぎて、質問の実際の焦点を失いました。私が知りたいのは、たとえば2008年以降の(かなり目に見える)減少は、症例の総数の減少傾向を反映していますか?2001年から2007年までの毎月の症例数は安定したプロセスを反映しているように思えます。多少の季節性があるかもしれませんが、全体的に安定しています。2008年から現在まで、そのプロセスは変化しているように見えます。ランダム性と季節性により毎月のカウントが上下する可能性がある場合でも、ケースの総数は減少しています。プロセスに実際の変更があるかどうかをテストするにはどうすればよいですか?そして、衰退を特定できれば、

2
2つのポアソン確率変数の比率の分布は何ですか?
ランダム変数に関する質問があります。2つのランダム変数とがあると仮定しましょう。さんが言ってみましょうポアソンのパラメータと一緒に配布され、およびポアソンのパラメータと一緒に配布されている。XXXYYYXXXλ1λ1\lambda_1YYYλ2λ2\lambda_2 から骨折を構築し、これをランダム変数と呼ぶと、これはどのように分布し、平均はどうなりますか?それは?X/YX/YX/YZZZλ1/λ2λ1/λ2\lambda_1/\lambda_2

3
ポアソン回帰対ログカウント最小二乗回帰?
ポアソン回帰は、ログリンク機能を備えたGLMです。 非正規分布のカウントデータをモデル化する別の方法は、ログ(または、log(1 + count)を処理して0を処理する)を使用して前処理することです。対数応答で最小二乗回帰を行う場合、ポアソン回帰に関連していますか?同様の現象を処理できますか?

4
連続データをモデル化するときにポアソン分布はどのように機能し、情報の損失につながりますか?
同僚は、学位論文のいくつかの生物学的データを、いくつかの厄介な異分散性で分析しています(下図)。彼女は混合モデルで分析していますが、まだ残差に問題があります。 応答変数をログ変換すると、物事がクリーンアップされ、この質問へのフィードバックに基づいて、これは適切なアプローチのようです。ただし、元々、混合モデルで変換された変数を使用することには問題があると考えていました。Littell&Milliken(2006)SAS for Mixed Modelsで、カウントデータを変換し、通常の線形混合モデルで分析することが不適切である理由を指摘していたステートメントを誤って解釈していたことがわかりました(完全な引用は以下) 。 残差も改善したアプローチは、ポアソン分布の一般化線形モデルを使用することでした。ポアソン分布は連続データのモデリングに使用でき(たとえば、この投稿で説明されているように)、statsパッケージで許可されますが、モデルが適合するときに何が起こっているのかわかりません。 基本的な計算がどのように行われているのかを理解するために、私の質問は次のとおりです:ポアソン分布を連続データに適合させると、1)データは最も近い整数に丸められますか?2)これは情報の損失をもたらします3)連続データにポアソンモデルを使用するのが適切な場合はいつですか? Littel&Milliken 2006、pg 529 "[count]データの変換は逆効果になる可能性があります。たとえば、変換はランダムなモデル効果の分布やモデルの線形性を歪める可能性があります。結果として、変換されたデータを使用した混合モデルからの推論は非常に疑わしい。」

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

4
ポアソン確率変数の切り捨てられた平均の分布は何ですか?
パラメーターでポアソン分布するランダム変数ある場合、(つまり、平均の整数フロア)?X1,X2,…,XnX1,X2,…,XnX_1,X_2,\ldots,X_nλ1,λ2,…,λnλ1,λ2,…,λn\lambda_1, \lambda_2,\ldots, \lambda_nY=⌊∑ni=1Xin⌋Y=⌊∑i=1nXin⌋Y=\left\lfloor\frac{\sum_{i=1}^n X_i}{n}\right\rfloor ポアソンの合計もポアソンですが、上記の場合と同じであるかどうかを判断するのに十分な統計情報はありません。

2
負の二項分布変数の違いを説明する分布?
スケルラム分布はポアソン分布を持つ2つの変数の違いを説明しています。負の二項分布に従う変数間の違いを説明する同様の分布はありますか? 私のデータはポアソンプロセスによって生成されますが、かなりの量のノイズが含まれており、分布に過剰分散が生じています。したがって、負の二項(NB)分布を使用したデータのモデリングはうまく機能します。これらのNBデータセットの2つの違いをモデル化する場合、私のオプションは何ですか?役立つ場合は、2つのセットで同様の平均と分散を仮定します。

2
ポアソンGLMが非整数の数値を受け入れることはどのように可能ですか?
ポアソンGLMが整数以外の数値を受け入れるという事実に本当に驚かされます!見て: データ(の内容data.txt): 1 2001 0.25 1 1 2002 0.5 1 1 2003 1 1 2 2001 0.25 1 2 2002 0.5 1 2 2003 1 1 Rスクリプト: t &lt;- read.table("data.txt") names(t) &lt;- c('site', 'year', 'count', 'weight') tm &lt;- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t, family = …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.