タグ付けされた質問 「logistic」

一般に、ロジスティック関数を使用する統計的手順、最も一般的にはさまざまな形式のロジスティック回帰を指します。

2
ロジスティック回帰の過剰分散
私はロジスティック回帰における過剰分散の概念を理解しようとしています。過剰分散とは、応答変数の観測された分散が二項分布から予想されるよりも大きい場合のことです。 しかし、二項変数が2つの値(1/0)しか持てない場合、どのようにして平均と分散を持つことができますか? x回のベルヌーイ試行から成功の平均と分散を計算することに問題はありません。しかし、2つの値しか持てない変数の平均と分散の概念に頭を抱えることはできません。 誰でも直感的な概要を提供できますか? 2つの値しか持てない変数の平均と分散の概念 2つの値しか持てない変数での過剰分散の概念

1
尤度を最大化するロジスティック回帰は、線形モデルよりもAUCも最大化する必要がありますか?
バイナリの結果およびいくつかの予測行列データセットが与えられると、標準ロジスティック回帰モデルは係数推定します二項尤度を最大化します。がフルランクの場合、は一意です。完全な分離が存在しない場合、有限です。y∈{0,1}ny∈{0,1}ny\in\{0,1\}^nX∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p}βMLEβMLE\beta_{MLE}XXXβMLEβMLE\beta_{MLE} この最尤モデルはROC AUC(別名統計)も最大化しますか、またはより高いROC AUCを取得する係数推定存在しますか?MLEが必ずしもROC AUCを最大化するとは限らない場合、この質問を見るもう1つの方法は、「ロジスティック回帰のROC AUCを常に最大化する尤度最大化の代替手段はありますか?」です。cccβAUC≠βMLEβAUC≠βMLE\beta_{AUC} \neq \beta_{MLE} それ以外のモデルは同じであると仮定しています:で予測子を追加または削除したり、モデルの仕様を変更したりすることはなく、尤度最大化モデルとAUC最大化モデルが同じリンク関数を使用していると仮定しています。XXX

2
決定しきい値はロジスティック回帰のハイパーパラメーターですか?
(バイナリ)ロジスティック回帰からの予測クラスは、モデルによって生成されたクラスメンバーシップ確率のしきい値を使用して決定されます。私が理解しているように、通常はデフォルトで0.5が使用されます。 ただし、しきい値を変更すると、予測される分類が変更されます。これは、しきい値がハイパーパラメーターであることを意味しますか?その場合、(たとえば)scikit-learnのGridSearchCV方法を使用して(正則化パラメーターで行うようにC)しきい値のグリッドを簡単に検索できないのはなぜですか。

5
ロジスティック回帰に関する哲学的質問:最適なしきい値がトレーニングされないのはなぜですか?
通常、ロジスティック回帰では、モデルを近似し、トレーニングセットでいくつかの予測を取得します。次に、これらのトレーニング予測(こちらのようなもの)を相互検証し、ROC曲線のようなものに基づいて最適なしきい値を決定します。 しきい値の交差検証を実際のモデルに組み込んで、全体をエンドツーエンドでトレーニングしてみませんか?

2
経済学の研究者がバイナリ応答変数に線形回帰を使用するのはなぜですか?
最近、私は経済学のいくつかの論文(私はあまり詳しくない分野)を読まなければなりませんでした。私が気づいたことの1つは、応答変数がバイナリである場合でも、OLSを使用して近似された線形回帰モデルは遍在するということです。したがって、私の質問は次のとおりです。 経済学の分野で、たとえばロジスティック回帰よりも線形回帰が有利なのはなぜですか?これは単なる一般的な慣習ですか、それとも積極的に提唱されている手順ですか(論文、教師など)? バイナリ応答で線形回帰を使用するのが悪い考えである理由や、代替方法が何であるかを尋ねているわけではないことに注意してください。それどころか、私はこれらの2つの質問に対する答えを知っているので、この設定で人々が線形回帰を使用する理由を尋ねています。

1
ロジスティック回帰と分数応答回帰の違いは何ですか?
私の知る限り、ロジスティックモデルと分数応答モデル(frm)の違いは、frmが[0,1]であるがロジスティックが{0、1}である従属変数(Y)であるということです。さらに、frmは準尤度推定器を使用してそのパラメーターを決定します。 通常、を使用glmしてロジスティックモデルを取得できますglm(y ~ x1+x2, data = dat, family = binomial(logit))。 frmの場合、に変更family = binomial(logit)しfamily = quasibinomial(logit)ます。 family = binomial(logit)同じ推定値が得られるため、frmのパラメーターの取得にも使用できることに気付きました。次の例をご覧ください library(foreign) mydata <- read.dta("k401.dta") glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata ,family = binomial('logit')) summary(glm.bin) 戻り、 Call: glm(formula = prate ~ mrate + age + …

2
R:family =“ binomial”および“ weight”仕様のglm関数
family = "binomial"を使用してglmで体重がどのように機能するか、非常に混乱しています。私の理解では、family = "binomial"のglmの可能性は次のように指定されます f(y)=(nny)pny(1−p)n(1−y)=exp(n[ylogp1−p−(−log(1−p))]+log(nny))f(y)=(nny)pny(1−p)n(1−y)=exp⁡(n[ylog⁡p1−p−(−log⁡(1−p))]+log⁡(nny)) f(y) = {n\choose{ny}} p^{ny} (1-p)^{n(1-y)} = \exp \left(n \left[ y \log \frac{p}{1-p} - \left(-\log (1-p)\right) \right] + \log {n \choose ny}\right) ここで、yyyは「観察された成功の割合」であり、nnnは既知の試行回数です。 私の理解では、成功の確率pppは、ような線形係数とfamily = "binomial"のglm関数でパラメーター化されます: 次に、この最適化問題は次のように簡略化できます。ββ\betap=p(β)p=p(β)p=p(\beta)argmaxβ∑ilogf(yi).argmaxβ∑ilog⁡f(yi). \textrm{arg}\max_{\beta} \sum_i \log f(y_i). argmaxβ∑ilogf(yi)=argmaxβ∑ini[yilogp(β)1−p(β)−(−log(1−p(β)))]+log(niniyi)=argmaxβ∑ini[yilogp(β)1−p(β)−(−log(1−p(β)))]argmaxβ∑ilog⁡f(yi)=argmaxβ∑ini[yilog⁡p(β)1−p(β)−(−log⁡(1−p(β)))]+log⁡(niniyi)=argmaxβ∑ini[yilog⁡p(β)1−p(β)−(−log⁡(1−p(β)))] \textrm{arg}\max_{\beta} \sum_i \log f(y_i)= \textrm{arg}\max_{\beta} \sum_i n_i \left[ y_i \log \frac{p(\beta)}{1-p(\beta)} - \left(-\log …

1
ロジスティック回帰モデルの評価
私はロジスティックモデルに取り組んでおり、結果を評価するのに苦労しています。私のモデルは二項ロジットです。説明変数は、15レベルのカテゴリ変数、二分変数、および2つの連続変数です。私のNは8000以上です。 私は、投資する企業の決定をモデル化しようとしています。従属変数は投資(yes / no)です。15レベルの変数は、マネージャーが報告する投資のさまざまな障害です。残りの変数は、販売、クレジット、および使用済み容量の制御です。 以下は、rmsR のパッケージを使用した私の結果です。 Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 8035 LR chi2 399.83 R2 0.067 C 0.632 1 5306 d.f. 17 g 0.544 Dxy 0.264 2 2729 Pr(> chi2) <0.0001 gr 1.723 gamma 0.266 max |deriv| 6e-09 gp 0.119 tau-a 0.118 Brier 0.213 …

1
変量効果ロジスティック回帰のICCの計算
次の形式でロジスティック回帰モデルを実行しています。 lmer(response~1+(1|site), family=binomial, REML = FALSE) 通常、切片と残差からICCを計算しますが、モデルの要約には残差は含まれません。これをどのように計算しますか?

1
ロジスティック回帰からの予測を理解する
ロジスティック回帰モデル(Rのglm)からの予測は、予想どおり0と1の間に制限されていません。ロジスティック回帰の私の理解は、入力パラメーターとモデルパラメーターが線形に組み合わされ、ロジットリンク関数を使用して応答が確率に変換されることです。ロジット関数は0と1の間に制限されているため、予測は0と1の間に制限されると予想しました。 ただし、Rでロジスティック回帰を実装すると、これは見られません。 data(iris) iris.sub <- subset(iris, Species%in%c("versicolor","virginica")) model <- glm(Species ~ Sepal.Length + Sepal.Width, data = iris.sub, family = binomial(link = "logit")) hist(predict(model)) どちらかといえば、predict(model)の出力は私には正常に見えます。誰かが私が得る値が確率ではない理由を私に説明できますか?

2
ポアソン対ロジスティック回帰
追跡期間が異なる患者のコホートがあります。これまでのところ、私は時間の側面を無視しており、バイナリの結果-疾患/疾患なしをモデル化する必要があります。私は通常これらの研究でロジスティック回帰を行いますが、別の同僚がポアソン回帰が適切かどうか尋ねました。私はポアソンには興味がありません。この設定でポアソンを行うことの利点と欠点がロジスティック回帰と比較されるかどうかについては不明確でした。ポアソン回帰を読んでバイナリ結果の相対リスクを推定しましたが、この状況でのポアソン回帰のメリットについてはまだわかりません。

1
一般化モーメント法(GMM)を使用してロジスティック回帰パラメーターを計算する
ロジスティック回帰に非常に類似した回帰の係数を計算したい(実際には別の係数を使用したロジスティック回帰: とき与えられたことができます)。GMMを使用して係数を計算することを考えましたが、使用すべきモーメント条件は何かわかりません。A1 + e− (b0+ b1バツ1+ b2バツ2+ … )、A1+e−(b0+b1バツ1+b2バツ2+…)、 \frac{A}{1 + e^{- (b_0 + b_1 x_1 + b_2 x_2 + \ldots)}},AAA 誰でもそれを手伝ってくれますか? ありがとう!

1
JAGSの正規化ベイジアンロジスティック回帰
ベイジアンラッソを説明する数学に重点を置いた論文がいくつかありますが、使用できるテスト済みの正しいJAGSコードが必要です。 正規化されたロジスティック回帰を実装するサンプルBUGS / JAGSコードを投稿できますか?任意のスキーム(L1、L2、Elasticnet)が最適ですが、Lassoが推奨されます。また、興味深い代替の実装戦略があるのだろうかと思います。

3
モデル選択:ロジスティック回帰
我々が持っていると仮定nnn共変量バツ1、 … 、xnバツ1、…、バツnx_1, \dots, x_n、バイナリ結果変数のyyy。これらの共変量のいくつかは、複数のレベルを持つカテゴリーです。その他は連続的です。「最適な」モデルをどのように選択しますか?言い換えれば、モデルに含める共変量をどのように選択しますか? 単純なロジスティック回帰を使用して、共変量のそ​​れぞれでyyyを個別にモデル化し、有意な関連性を持つ回帰を選択しますか?

2
ロジスティック回帰モデルの評価
この質問は、ロジスティックモデルで十分かどうかを判断する方法に関する実際の混乱から生じています。従属変数として形成されてから2年後に、個々のプロジェクトのペアの状態を使用するモデルがあります。結果は成功(1)または失敗(0)です。ペアの形成時に測定された独立変数があります。私の目的は、私が仮定した変数がペアの成功に影響を与えるかどうかをテストし、その成功に影響を与え、他の潜在的な影響を制御することです。モデルでは、対象の変数は重要です。 モデルはのglm()関数を使用して推定されましたR。モデルの品質を評価するために、私はいくつかのことを行っている:glm()あなたは与えresidual deviance、AICそしてBICデフォルトで。さらに、モデルのエラー率を計算し、ビン化された残差をプロットしました。 完全なモデルは、私が推定した(および完全なモデルにネストされている)他のモデルよりも小さい残差、AICおよびBICを持っているため、このモデルは他のモデルよりも「優れている」と思います。 モデルのエラー率はかなり低く、IMHO(Gelman and Hill、2007、pp.99のように):、 error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)約20%です。 ここまでは順調ですね。しかし、ビン化された残差をプロットすると(再びGelman and Hillのアドバイスに従って)、ビンの大部分が95%CIの範囲外になります。 このプロットは、モデルにまったく問題があると思うように導きます。それはモデルを捨てることに私を導くべきですか?モデルが不完全であることを認める必要がありますが、それを維持し、対象変数の効果を解釈する必要がありますか?ビン化された残差プロットを実際に改善することなく、変数を順番に除外し、変換も試行錯誤しました。 編集: 現時点では、モデルには多数の予測子と5つの相互作用効果があります。 これらのペアは、すべてが短時間で形成されるという意味で(ただし、厳密に言えば、すべて同時にではない)という意味で互いに「比較的」独立しており、多数のプロジェクト(13k)と多数の個人(19k )そのため、かなりの割合のプロジェクトには1人の個人しか参加していません(約20000ペアあります)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.