タグ付けされた質問 「logistic」

一般に、ロジスティック関数を使用する統計的手順、最も一般的にはさまざまな形式のロジスティック回帰を指します。

1
ロジスティック回帰のトレーニングに「部分的なクレジット」(継続的な結果)を与えることは、これまでに良い考えですか。
私はロジスティック回帰を訓練して、どのランナーが過酷な耐久レースを終了する可能性が最も高いかを予測しています。 非常に少数のランナーがこのレースを完了しているので、私は深刻なクラスの不均衡と成功の小さなサンプル(多分数十)を持っています。私はほとんどそれを作った何十人ものランナーからいくつかの良い「シグナル」を得ることができるように感じています。(私のトレーニングデータには、完了だけでなく、完了しなかったデータが実際にどれだけ作成したかも含まれています。)したがって、「部分的なクレジット」を含めるのはひどい考えなのかどうか疑問に思っています。部分的なクレジット、ランプ、ロジスティックカーブの2つの関数を考え出しました。これらにはさまざまなパラメーターを指定できます。 回帰との唯一の違いは、バイナリの結果ではなく、修正された継続的な結果を予測するためにトレーニングデータを使用することです。テストセット(バイナリレスポンスを使用)での予測を比較すると、かなり結論が出ませんでした-ロジスティックの部分的なクレジットはR-2乗、AUC、P / Rをわずかに改善するように見えましたが、これは、小さなサンプル。 予測が完了に向かって偏っていることに気にしない-私が気にするのは、終了する可能性のある選手を正しくランク付けすること、またはおそらく終了する相対的な可能性を推定することです。 ロジスティック回帰は、予測子とオッズ比の対数の間の線形関係を想定していることを理解しています。明らかに、結果をいじり始めると、この比には実際の解釈がありません。これは理論的な観点からは賢明ではないと私は確信していますが、追加の信号を取得して過剰適合を防ぐのに役立つ可能性があります。(私は成功とほぼ同じ数の予測子を持っているので、完全に完了した関係のチェックとして部分的に完了した関係を使用すると役立つ場合があります)。 このアプローチは責任ある実践で使用されたことがありますか? いずれにせよ、このタイプの分析により適した他のタイプのモデル(おそらく、時間ではなく距離にわたって適用されるハザード率を明示的にモデル化するもの)がありますか?

1
2x2およびIx2(単一因子-バイナリ応答)分割表のロジスティック回帰とカイ2乗?
2x2およびIx2の分割表でのロジスティック回帰の使用を理解しようとしています。たとえば、これを例として使用します カイ二乗検定とロジスティック回帰の違いは何ですか?次のような複数の名目上の因子(Ix2テーブル)を持つテーブルはどうでしょうか。 ここに同様の質問がありますが、答えは主にカイ二乗がmxnテーブルを処理できるということですが、私の質問は、バイナリの結果と単一の名目上の因子がある場合の具体的なものです。(リンクされたスレッドはこのスレッドも指しますが、これは複数の変数/因子に関するものです)。 それがバイナリ応答を持つ単一の因子(つまり、他の変数を制御する必要がない)の場合、ロジスティック回帰を行う目的の違いは何ですか?

2
ロジスティックモデルのRMSE(二乗平均平方根誤差)
RMSE(二乗平均平方根誤差)を使用してさまざまなロジスティックモデルを比較することの妥当性について質問があります。応答のいずれかである0か1との予測が間確率でありますか0- 1? 以下に適用される方法は、バイナリ応答でも有効ですか? # Using glmnet require(glmnet) load(url("https://github.com/cran/glmnet/raw/master /data/BinomialExample.RData")) cvfit = cv.glmnet(x, y, family = "binomial", type.measure = "mse") A <- predict(cvfit, newx = x, s = "lambda.min", type = "response") RMSE1 <- mean((y - A)^2) # 0.05816881 # glm mydata <- read.csv("https://stats.idre.ucla.edu/stat/data/binary.csv") mydata$rank <- factor(mydata$rank) mylogit <- glm(admit ~ …

3
なぜロジスティック回帰でカテゴリー予測子のWOE変換を行う必要があるのですか?
カテゴリー変数の証拠の重み(WOE)変換はいつ役立つのですか? この例は、WOE変換で見ることができます。 (したがって、応答のために、&とカテゴリ予測k個のカテゴリ、および Y j個のうち成功N j個の内の試験Jこの予測の範疇番目用WOE Jカテゴリ番目は次のように定義されますyyykkkyjyjy_jnjnjn_jjjjjjj logyj∑kjyj∑kj(nj−yj)nj−yjlog⁡yj∑jkyj∑jk(nj−yj)nj−yj\log \frac{y_j} {\sum_j^k {y_j}} \frac{\sum_j^k (n_j-y_j)}{n_j-y_j} &変換は、カテゴリー予測子の各カテゴリーをそのWOEでコーディングして、新しい連続予測子を形成することで構成されます。) WOE変換がロジスティック回帰に役立つ理由を知りたいのですが。この背後にある理論は何ですか?

1
尤度比検定とWald検定は、Rのglmに異なる結論を提供します
一般化モデル、線形モデル、混合モデルの例を再現しています。私のMWEは以下のとおりです。 Dilution <- c(1/128, 1/64, 1/32, 1/16, 1/8, 1/4, 1/2, 1, 2, 4) NoofPlates <- rep(x=5, times=10) NoPositive <- c(0, 0, 2, 2, 3, 4, 5, 5, 5, 5) Data <- data.frame(Dilution, NoofPlates, NoPositive) fm1 <- glm(formula=NoPositive/NoofPlates~log(Dilution), family=binomial("logit"), data=Data) summary(object=fm1) 出力 Call: glm(formula = NoPositive/NoofPlates ~ log(Dilution), family = binomial("logit"), …

3
が大きい場合のネストされたバイナリロジスティック回帰モデルの比較
より良い私の質問をするために、私は16変数モデル(両方からの出力のいくつか提供しているfit)と17変数モデル(fit2下記)を(これらのモデル内のすべての予測変数は、これらのモデル間の唯一の違いはそれがどこにあるか、連続してfitいません変数17(var17)を含む): fit Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703 0 69833 d.f. 17 g 1.150 Dxy 0.407 1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma 0.416 max |deriv| 3e-05 gp 0.180 tau-a 0.177 Brier 0.190 fit2 Model Likelihood Discrimination …

1
結果変数がケース/コントロールステータスでない場合のケース-コントロール設計におけるロジスティック回帰係数の推定
サイズの母集団からデータをサンプリング検討NNN以下のように:についてはk=1,...,Nk=1,...,Nk=1, ..., N 個々のkkkの「疾患」状態を観察する 彼らが疾患を持っている場合、確率p k 1でサンプルに含めますpk1pk1p_{k1} それらが病気にかかっていない場合は、確率それらを含めますpk0pk0p_{k0}。 あなたがバイナリ結果変数観測仮定YiYiY_iとの予測ベクトルXiXi{\bf X}_iのために、i=1,...,ni=1,...,ni=1, ..., n人の被験者がこの方法でサンプリングしました。結果変数は「疾患」ステータスではありません。ロジスティック回帰モデルのパラメーターを推定したい: log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβlog⁡(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ \log \left( \frac{ P(Y_i = 1 | {\bf X}_i) }{ P(Y_i = 0 | {\bf X}_i) } \right) = \alpha + {\bf X}_i {\boldsymbol \beta} 私が気にしているのは、(ログ)オッズ比です。切片は私には関係ありません。ββ{\boldsymbol \beta} 私の質問は、サンプリング確率、を無視して、あたかもモデルをあてはめることで、賢明な推定を取得できますかそれは普通のランダムなサンプルでしたか?ββ{\boldsymbol \beta}{pi1,pi0}{pi1,pi0}\{ p_{i1}, p_{i0} \}i=1,...,ni=1,...,ni=1, ..., n この質問に対する答えは「はい」です。 私が探しているのは、これを検証するリファレンスです。 答えに確信がある主な理由は2つあります。 …

1
ロジットの線形性の違反に対するロジスティック回帰のロバスト性の調査
バイナリの結果(開始と開始ではない)でロジスティック回帰を行っています。私の予測因子の組み合わせは、すべて連続変数または二分変数です。 Box-Tidwellアプローチを使用すると、私の連続予測子の1つがロジットの線形性の仮定に違反する可能性があります。適合度の統計から、適合度に問題があるという兆候はありません。 その後、元の連続変数を次のように置き換えて、回帰モデルを再度実行しました。1つ目は平方根変換、2つ目は変数の二分法バージョンです。 出力を調べると、適合度はわずかに向上しているようですが、残差が問題になります。パラメータ推定値、標準誤差、およびは比較的似ています。データの解釈は、3つのモデル間で私の仮説の観点からは変わりません。exp(β)exp⁡(β)\exp(\beta) したがって、私の結果の有用性とデータの解釈の観点から、元の連続変数を使用して回帰モデルを報告するのが適切なようです。 私はこれを思っています: ロジスティック回帰は、ロジット仮定の線形性の潜在的な違反に対して堅牢なのはいつですか? 上記の例を考えると、元の連続変数をモデルに含めることは許容できると思われますか? モデルがロジットの線形性の潜在的な違反に対してロバストであることを受け入れることが十分である場合に推奨するためのリファレンスまたはガイドはありますか?

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

2
いくつかのロジスティック回帰と多項回帰
多項式回帰を実行する代わりに、いくつかのバイナリロジスティック回帰を実行することは実行可能ですか?この質問から:多項ロジスティック回帰と1対restバイナリロジスティック回帰の比較多項式回帰の方が標準誤差が低いことがわかります。 ただし、利用したいパッケージは多項式回帰に一般化されていないため(ncvreg:http : //cran.r-project.org/web/packages/ncvreg/ncvreg.pdf)、簡単にできるのかと思っていました。代わりにいくつかのバイナリロジスティック回帰。

2
ロジット変換線形回帰、ロジスティック回帰、およびロジスティック混合モデルの違いは何ですか?
私には10人の生徒がいて、それぞれが20の数学の問題を解こうとしているとします。問題は(longdataで)正解または不正解としてスコアリングされ、各学生のパフォーマンスは(subjdataで)精度測定によって要約できます。以下のモデル1、2、および4は異なる結果を生成するように見えますが、同じことを行っていると理解しています。なぜ結果が異なるのですか?(参考のためにモデル3を含めました。) library(lme4) set.seed(1) nsubjs=10 nprobs=20 subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5)) longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ] longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4) subjdata$acc = by(longdata$correct,longdata$subj,mean) model1 = lm(logit(acc)~iq,subjdata) model2 = glm(acc~iq,subjdata,family=gaussian(link='logit')) model3 = glm(acc~iq,subjdata,family=binomial(link='logit')) model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
オッズ比とは異なる指数ロジスティック回帰係数
私が理解しているように、ロジスティック回帰からの指数ベータ値は、目的の従属変数に対するその変数のオッズ比です。ただし、値は手動で計算されたオッズ比と一致しません。私のモデルは、他の指標の中でもとりわけ、保険を使用して発育不全(栄養失調の尺度)を予測しています。 // Odds ratio from LR, being done in stata logit stunting insurance age ... etc. or_insurance = exp(beta_value_insurance) // Odds ratio, manually calculated odds_stunted_insured = num_stunted_ins/num_not_stunted_ins odds_stunted_unins = num_stunted_unins/num_not_stunted_unins odds_ratio = odds_stunted_ins/odds_stunted_unins これらの値が異なる理由は何ですか?回帰の他の要素を制御していますか?違いを説明できるようにしたいだけです。

2
バイナリ応答と連続応答を組み合わせる最良の方法
集金代行の支払い金額を予測する最良の方法を考え出そうとしています。従属変数は、支払いが行われたときにのみ非ゼロになります。当然のことながら、ほとんどの人は到達できないか、借金を返済できないため、圧倒的な数のゼロがあります。 また、負債額と支払いの確率の間には非常に強い負の相関があります。通常、私は給与/不給の確率を予測するためにロジスティックモデルを作成しますが、これは最低の残高を持つ人々を見つけるという残念な結果をもたらします。 ロジスティックペイ/ノンペイモデルを、支払い金額を予測する別のモデルと組み合わせる方法はありますか?

2
マルチクラスのロジスティック回帰
によって与えられるマルチクラスのロジスティック回帰のモデルを得ま​​した P(Y=j|X(i))=exp(θTjX(i))1+∑km=1exp(θTmX(i))P(Y=j|X(i))=exp⁡(θjTX(i))1+∑m=1kexp⁡(θmTX(i)) P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^TX^{(i)})}{1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)})} ここで、kはクラスの数thetaは推定されるパラメーターjはj番目のクラスXiはトレーニングデータ 分からなかったのは、分母の部分 がモデルを正規化したです。つまり、確率が0と1の間に留まるということです。1+∑m=1kexp(θTmX(i))1+∑m=1kexp⁡(θmTX(i)) 1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)}) 私はロジスティック回帰に慣れていることを意味します P(Y=1|X(i))=1/(1+exp(−θTX(i)))P(Y=1|X(i))=1/(1+exp⁡(−θTX(i))) P(Y=1|X^{(i)}) = 1/ (1 + \exp(-\theta^T X^{(i)})) 実際、私は正規化のことと混同しています。この場合、シグモイド関数であるため、値が0未満または1を超えることはありませんが、マルチクラスの場合は混乱します。なぜそうなのですか? これは私の参照https://list.scms.waikato.ac.nz/pipermail/wekalist/2005-February/029738.htmlです。正規化するべきだったと思います P(Y=j|X(i))=exp(θTjX(i))∑km=1exp(θTmX(i))P(Y=j|X(i))=exp⁡(θjTX(i))∑m=1kexp⁡(θmTX(i)) P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^T X^{(i)})}{\sum_{m=1}^{k} \exp(\theta_m^T X^{(i)})}

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.