タグ付けされた質問 「deviance」

逸脱度は、達成可能な最大対数尤度と、適合モデルで達成された対数尤度との差の2倍です。

2
GLM Rの残差とヌル逸脱の解釈
RのGLMのヌルと残差の逸脱をどのように解釈しますか?たとえば、AICは小さいほど良いと言います。デビアンスについても同様の迅速な解釈はありますか? ヌル偏差:1077自由度で1146.1残留偏差:1099自由度で4589.4 AIC:11089

3
逸脱とは何ですか?(特にCART / rpartで)
「逸脱」とは何ですか、どのように計算され、統計のさまざまな分野でどのように使用されますか? 特に、CARTでの使用(およびRのrpartでの実装)に個人的に興味があります。 wikiの記事にはやや欠けているようで、あなたの洞察が最も歓迎されるので、私はこれを求めています。
45 r  cart  rpart  deviance 

2
ロジスティック回帰:ベルヌーイ対二項応答変数
次の二項応答と、予測子としてとを使用してロジスティック回帰を実行します。 X1X1X_1X2X2X_2 次の形式でベルヌーイ応答と同じデータを提示できます。 これら2つのデータセットのロジスティック回帰出力はほとんど同じです。逸脱残差とAICは異なります。(ヌル偏差と残留偏差の差は、両方の場合で同じです-0.228。) 以下は、Rからの回帰出力です。データセットはbinom.dataおよびbern.dataと呼ばれます。 これが二項出力です。 Call: glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, family = binomial, data = binom.data) Deviance Residuals: [1] 0 0 0 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.9649 21.6072 -0.137 0.891 X1Yes -0.1897 2.5290 -0.075 0.940 X2 0.3596 1.9094 0.188 …

1
ポアソンモデルの相互検証のエラーメトリック
カウントを予測しようとしているモデルを相互検証しています。これがバイナリ分類の問題である場合は、フォールドアウトAUCを計算し、これが回帰問題である場合は、フォールドアウトRMSEまたはMAEを計算します。 ポアソンモデルの場合、サンプル外予測の「精度」を評価するためにどのエラーメトリックを使用できますか?AUCのポアソン拡張で、予測が実際の値をどの程度適切に並べるかを調べますか? カウントのための多くのKaggleコンテスト(たとえば、yelpレビューで得られる有用な投票数、または患者が病院で過ごす日数)は、二乗平均平方根誤差、またはRMLSEを使用しているようです。 /編集:私がやっていることの1つは、予測値の10分の1を計算してから、十分な数でビニングされた実際のカウントを調べることです。十分位数1が低く、十分位数10が高く、その間の十分位数が厳密に増加している場合、モデルを「良い」と呼んでいますが、このプロセスを定量化するのに苦労しており、より良い方法があると確信していますアプローチ。 /編集2:予測値と実際の値を取得し、「エラー」または「精度」メトリックを返す数式を探しています。私の計画は、交差検証中にフォールド外データでこの関数を計算し、それを使用してさまざまなモデル(ポアソン回帰、ランダムフォレスト、GBMなど)を比較することです。 たとえば、そのような関数の1つですRMSE = sqrt(mean((predicted-actual)^2))。別のそのような関数はAUCです。どちらの関数もポアソンデータには適切でないようです。

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
ロジスティック回帰:飽和モデルを取得する方法
ロジスティック回帰の逸脱度について読みました。ただし、飽和モデルと呼ばれる部分は明確ではありません。 Googleで大規模な検索を行いましたが、私の質問に答える結果はありませんでした。これまでのところ、飽和モデルには各観測値のパラメーターがあり、結果として完全に適合することがわかっています。これは私には明らかです。しかし:さらに、(飽和モデルの)適合値は、観測値に等しくなります。 私の知る限り、ロジスティック回帰は分類に使用されるため、特定の観測データは追加のラベル持つ共変量です。ただし、逸脱測度は確率を使用しますが、実際のラベルは使用しません。ロジスティック回帰の計算された予測確率と観測された確率を適用します。しかし、確率ではなくラベルだけを与えているので、これらのラベルから飽和モデルを構築する方法を混乱していますか?y∈{0,1}y∈{0,1}y \in \{0,1\}

1
ロジスティック回帰におけるピアソンVS逸脱残差
標準化されたPearson Residualsは、従来の確率論的な方法で取得されることを知っています。 r私= y私- π私π私(1 - π私)−−−−−−−−√r私=y私−π私π私(1−π私) r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}} および逸脱残差は、より統計的な方法(各ポイントの尤度への寄与)によって取得されます。 d私= s私− 2 [ y私ログπ私^+ (1 − y私)ログ(1 - π私)]−−−−−−−−−−−−−−−−−−−−−−−−−−√d私=s私−2[y私ログ⁡π私^+(1−y私)ログ⁡(1−π私)] d_i = s_i \sqrt{-2[y_i \log \hat{\pi_i} + (1 - y_i)\log(1-\pi_i)]} ここで、 = 1の場合 = 1及び = -1であれば = 0。s私s私s_iy私y私y_is私s私s_iy私y私y_i 逸脱残差の式をどのように解釈するか、直感的に説明できますか? さらに、1つを選択したい場合、どちらがより適切で、なぜですか。 ところで、いくつかの参考文献は、用語に基づいて逸脱残差を導出すると主張しています − 12r私2−12r私2-\frac{1}{2}{r_i}^2 ここで、は上記のとおりです。r私r私r_i

1
なぜラグ効果を追加すると、ベイジアン階層モデルの平均逸脱が増加するのですか?
背景:現在、さまざまなベイジアン階層モデルを比較する作業を行っています。データは、参加者iと時間jの幸福度の数値的尺度です。約1000人の参加者と、参加者ごとに5〜10個の観察結果があります。y私はjy私jy_{ij}私私ijjj ほとんどの縦断的データセットと同様に、時間的に近い観測値は、離れた観測値よりも大きな相関関係を持つ何らかの自己相関を期待しています。いくつかのことを簡略化すると、基本モデルは次のようになります。 y私はj〜N(μ私はj、σ2)y私j〜N(μ私j、σ2)y_{ij} \sim N(\mu_{ij}, \sigma^2) ここで、遅延のないモデルを比較しています。 μ私はj= β0 iμ私j=β0私\mu_{ij} = \beta_{0i} 遅延モデルの場合: μ私はj= β0 i+ β1(yi (j − 1 )- β0 i)μ私j=β0私+β1(y私(j−1)−β0私)\mu_{ij} = \beta_{0i} + \beta_{1} (y_{i(j-1)} - \beta_{0i}) ここで者レベルの平均値とされているβ 1はラグパラメータである(すなわち、ラグ効果は、その時点の予測値から前回の時点から観測の偏差の倍数を加算します)。また、y i 0(つまり、最初の観測の前の観測)を推定するためにいくつかのことをしなければなりませんでした。β0 iβ0私\beta_{0i}β1β1\beta_1yi 0y私0y_{i0} 私が得ている結果は次のことを示しています。 遅延パラメーターは、約.18、95%CI [.14、.21]です。すなわち、それは非ゼロです モデルに遅延が含まれると、平均偏差とDICは両方とも数百増加します。 事後予測チェックは、遅延効果を含めることにより、モデルがデータの自己相関をより良く回復できることを示しています したがって、要約すると、ゼロ以外のラグパラメーターと事後予測チェックは、ラグモデルが優れていることを示唆しています。それでも平均逸脱とDICは、遅延のないモデルの方が優れていることを示唆しています。これは私を困惑させます。 私の一般的な経験では、有用なパラメーターを追加する場合、少なくとも平均偏差を減らす必要があります(複雑さのペナルティーの後でもDICは改善されません)。さらに、遅延パラメーターの値をゼロにすると、遅延なしモデルと同じ偏差が得られます。 質問 ラグパラメーターがゼロ以外であり、事後予測チェックが改善される場合でも、なぜラグ効果を追加するとベイジアン階層モデルの平均逸脱が増加するのでしょうか? 最初の考え 私は多くの収束チェックを行いました(たとえば、トレースプロットを見る;チェーンおよびラン全体の逸脱結果の変化を調べる)両方のモデルが後方に収束したようです。 ラグエフェクトを強制的にゼロにするコードチェックを実行しました。これにより、ラグのないモデルの逸脱を回復できました。 また、平均偏差からペナルティーを引いた値を調べました。これにより、期待値で偏差が生じるはずであり、これによりラグモデルが悪化しました。 β0 …

3
GLMでは、飽和モデルの対数尤度は常にゼロですか?
一般化線形モデルの出力の一部として、ヌルと残差偏差を使用してモデルを評価します。飽和モデルの対数尤度で表されるこれらの量の式をよく見ます。たとえば、https://stats.stackexchange.com/a/113022/22199、ロジスティック回帰:飽和モデルを取得する方法 私が理解する限り、飽和モデルは観測された応答に完全に適合するモデルです。したがって、私が見たほとんどの場所で、飽和モデルの対数尤度は常にゼロとして与えられます。 しかし、逸脱の公式が与えられる方法は、この量がゼロでない場合があることを示唆しています。(常にゼロであるかのように、なぜそれを含めるのが面倒ですか?) どのような場合にゼロ以外になる可能性がありますか?決してゼロ以外ではない場合、なぜ逸脱の式に含めるのですか?

1
一般化線形モデルの偏差に対する線形モデルのR二乗?
この質問に対する私のコンテキストは次のとおりです。私が知ることができることから、加重データとsurveyパッケージを使用する場合、Rで通常の最小二乗回帰を実行することはできません。ここではsvyglm()、代わりに一般化線形モデルを実行するを使用する必要があります(これは同じものかもしれません。ここでは、何が違うのかという点であいまいです)。 OLS lm()では、関数を使用してRの2乗値を計算しますが、その解釈は理解できます。しかし、svyglm()これを計算していないようで、代わりに偏差を与えます。これは、インターネットを巡回する短い旅行で、Rの2乗とは異なる解釈の適合度の尺度であるとわかります。 だから私は基本的に、何らかの方向性を得ることを望んでいた2つの質問があると思います: surveyパッケージでOLSを実行できないのはなぜですか。これは、Stataで重み付けされたデータを使用して実行できるように思われますか? 一般化線形モデルの逸脱とr二乗値の解釈の違いは何ですか?

1
ゼロ膨張のポアソンまたはゼロ膨張の負の二項式の「逸脱」の測定?
D = 2 *(飽和モデルの対数尤度-適合モデルの対数尤度)として定義されるスケーリングされた逸脱は、GLMモデルの適合度の尺度としてよく使用されます。[D(null model)-D(fitted model)] / D(null model)として定義される逸脱率の説明は、線形回帰のR-2乗のGLMアナログとしても使用されます。ZIP分布とZINB分布が指数分布の分布の一部ではないという事実を除けば、説明された逸脱度と逸脱度のパーセントがゼロインフレートモデリングで使用されない理由を理解できません。誰もがこれにいくつかの光を当てるか、役立つ参考資料を提供できますか?前もって感謝します!

2
交差検証を使用した、glmnetパッケージの逸脱度の正確な定義?
現在の研究では、Rのglmnetパッケージを介してLassoメソッドを二項従属変数に使用しています。 glmnetでは、交差検証によって最適なラムダが見つかり、結果のモデルは、誤分類エラーや逸脱などのさまざまな測定値と比較できます。 私の質問:glmnetで逸脱はどのように正確に定義されていますか?どのように計算されますか? (フリードマン他による対応する論文「座標降下による一般化線形モデルの正規化パス」で私はcv.glmnetで使用された逸脱に関するこのコメントのみを見つけます:「平均逸脱(マイナス左の対数尤度の2倍)データ)」(p。17))。

3
特定の非線形モデルの適合度を評価する方法は?[閉まっている]
ここで何が質問されているのかを理解することは困難です。この質問は、あいまいで、あいまいで、不完全で、過度に広い、または修辞的であり、現在の形では合理的に回答することができません。再開できるようにこの質問を明確にするヘルプについては、ヘルプセンターに アクセスしてください。 7年前休業。 私は非線形モデルを持っています。ここで、Φは標準正規分布の累積分布関数であり、fは非線形です(以下を参照)。このモデルとパラメーターaの適合度をデータ(x 1、y 1)、(x 2、y 2)、… 、(x n、y n)でテストしたいy= Φ (f(x 、a ))+ εy=Φ(f(x,a))+εy=\Phi(f(x,a)) + \varepsilonΦΦ\Phiaaa(x1、y1)、(x2、y2)、… 、(xん、yん)(x1,y1),(x2,y2),…,(xn,yn)(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)、検索するために使用最尤推定を持った後。適切なテストは何でしょうか?このテストを使用して、不良適合を不良としてラベル付けし、さらにデータを収集する必要があるかどうかを判断します。aaa 私は使用適合度のその対応する試験で、飽和モデルに対してこのモデルを比較して逸脱を用いに見てきた分布。これは適切でしょうか?私が逸脱について読んだことのほとんどは、それをGLMに適用していますが、それは私が持っているものではありません。逸脱度テストが適切である場合、テストを有効にするためにどのような仮定を保持する必要がありますか?χ2n − 1χn−12\chi^2_{n-1} 更新:のためのx>1、>0の場合にこのことができます。f= x − 1X2+ 1√f=x−1ax2+1f = \frac{x-1}{a\sqrt{x^2+1}}x > 1 、a > 0x>1,a>0x>1,a>0

1
-2対数尤度は1つのモデルのみで計算できますか?
このglmfit関数をMATLABで使用しています。この関数は、逸脱度のみを返し、対数尤度は返しません。逸脱は基本的にモデルの対数尤度の違いの2倍であることを理解していますがglmfit、1つのモデルを作成するためだけに使用しているのではなく、どういうわけか逸脱が発生しています。 -2対数尤度の計算には2つのモデルが必要ですか? モデルが1つしかない場合、逸脱をどのように分析できますか? 私が持っているもう1つの質問は、2つのモデルがあり、対数尤度検定を使用してそれらを比較していたということです。帰無仮説は最初のモデルであり、対立仮説は2番目のモデルです。対数尤度検定の統計を取得した後、それをカイ二乗cdfと照合してp値を決定しますか?アルファレベルよりも小さい場合はnullを拒否し、それよりも大きい場合はnullを拒否できません。

1
逸脱vsピアソン適合度
負の二項回帰(負の二項GLM)を使用してモデルを作成しようとしています。サンプルサイズが比較的小さく(300を超える)、データがスケーリングされていません。適合度を測定するには2つの方法があることに気付きました。1つは逸脱度であり、もう1つはピアソン統計です。使用する適合度の測定値をどのように決定できますか?適合度測定を選択する際に検討できる基準はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.