タグ付けされた質問 「logit」

一般に、ロジスティック関数、最も一般的にはさまざまな形式のロジスティック回帰を利用する統計手順を指します。

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
ロジット値は実際にはどういう意味ですか?
多くの場合、0から1の間の数字を出すロジットモデルがありますが、これをどのように解釈できますか? 0.20のロジットの場合を考えてみましょう ケースがグループBとグループAに属する可能性が20%あると断言できますか? それはロジット値を解釈する正しい方法ですか?



3
Rで多項ロジットモデルを設定および推定する方法
JMPで多項ロジットモデルを実行し、各パラメーター推定値のAICとカイ2乗p値を含む結果を取得しました。このモデルには、1つのカテゴリー結果と7つのカテゴリー説明変数があります。 次にmultinom、nnetパッケージの関数を使用して、Rで同じモデルを構築すると考えていたものに適合させました。 コードは基本的に: fit1 <- multinom(y ~ x1+x2+...xn,data=mydata); summary(fit1); ただし、2つの結果は異なります。JMPでは、AICは2923.21、nnet::multinomAICでは3116.588です。 私の最初の質問は、モデルの1つが間違っているということです。 2つ目は、JMPが各パラメーター推定値のカイ2乗p値を提供することです。マルチノムでサマリーを実行fit1しても、推定値、AIC、および逸脱は表示されません。 私の2番目の質問はこうです:モデルのp値を取得し、使用するときに推定する方法はありnnet::multinomますか? 私が知っているmlogitは、このための別のRパッケージであり、その出力はp値が含まれてように見えます。ただし、mlogitデータを使用して実行することはできません。データは正しくフォーマットされていたと思いますが、無効な数式があったと言われました。私が使用したものと同じ式を使用しましたmultinomが、パイプを使用した別の形式が必要なようで、その仕組みがわかりません。 ありがとう。
20 r  logistic  multinomial  logit  jmp 

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 


2
ロジスティック回帰から係数を解釈する方法は?
次の確率関数があります。 Prob=11+e−zProb=11+e−z\text{Prob} = \frac{1}{1 + e^{-z}} どこ z=B0+B1X1+⋯+BnXn.z=B0+B1X1+⋯+BnXn.z = B_0 + B_1X_1 + \dots + B_nX_n. 私のモデルは次のように見えます Pr(Y=1)=11+exp(−[−3.92+0.014×(gender)])Pr(Y=1)=11+exp⁡(−[−3.92+0.014×(gender)])\Pr(Y=1) = \frac{1}{1 + \exp\left(-[-3.92 + 0.014\times(\text{gender})]\right)} インターセプト(3.92)の意味は理解していますが、0.014の解釈方法は確実です。これらは今でもオッズ、オッズ比の対数ですか、それとも増分オッズの変化が性別であるため、女性は男性よりも0.014勝つ可能性が高いと断言できますか?基本的に、0.014を解釈するにはどうすればよいですか? 基本的に、確率関数を取得して、実際にJavaで記述している特定のプログラムに実装したいのですが、Javaで実装するために関数を正しく理解しているかどうかはわかりません。 Javaコードの例: double p = 1d / (1d + Math.pow(2.718d, -1d * (-3.92d + 0.014d * bid)));

1
順序付きロジスティック回帰の負の係数
我々は序数応答があるとy:{Bad, Neutral, Good}→{1,2,3}y:{Bad, Neutral, Good}→{1,2,3}y:\{\text{Bad, Neutral, Good}\} \rightarrow \{1,2,3\}と変数の集合X:=[x1,x2,x3]X:=[x1,x2,x3]X:=[x_1,x_2,x_3]我々は考えることを説明するyyy。次に、y(応答)に対してXXX(設計行列)の順序付きロジスティック回帰を行います。yyy 推定係数と仮定x1x1x_1、それが呼び出しβ 1である、順序付けられたロジスティック回帰に- 0.5。e - 0.5 = 0.607のオッズ比(OR)をどのように解釈しますか?β^1β^1\hat{\beta}_1−0.5−0.5-0.5e−0.5=0.607e−0.5=0.607e^{-0.5} = 0.607 私が1つの単位増加のために」と言うか、paribusをceteris、観察のオッズ良いがある0.607観察の倍のオッズ悪い∪ ニュートラルを、とで同じ変更のためのx 1、観察のオッズ中性∪ 良いがある0.607 Badを観察する確率は?x1x1x_1GoodGood\text{Good}0.6070.6070.607Bad∪NeutralBad∪Neutral\text{Bad}\cup \text{Neutral}x1x1x_1Neutral∪GoodNeutral∪Good\text{Neutral} \cup \text{Good}0.6070.6070.607BadBad\text{Bad} 私は教科書やグーグルで負の係数の解釈の例を見つけることができません。

3
Rのglm関数で使用される最適化アルゴリズムはどれですか?
このようなコードを使用して、Rでロジット回帰を実行できます。 > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 最適化アルゴリズムが収束したようです-フィッシャースコアリングアルゴリズムのステップ数に関する情報があります。 Call: glm(formula = cbind(Menarche, Total - Menarche) ~ Age, family = binomial(logit), data = menarche) Deviance Residuals: Min 1Q Median 3Q Max -2.0363 -0.9953 -0.4900 0.7780 1.3675 Coefficients: …

2
ロジスティック回帰の信頼区間の計算
私は二項ロジスティック回帰分析を使用して、ユーザーが何かをクリックする可能性にさらされているhas_xか、has_y影響を与えているかどうかを特定しています。私のモデルは次のとおりです。 fit = glm(formula = has_clicked ~ has_x + has_y, data=df, family = binomial()) これは私のモデルからの出力: Call: glm(formula = has_clicked ~ has_x + has_y, family = binomial(), data = active_domains) Deviance Residuals: Min 1Q Median 3Q Max -0.9869 -0.9719 -0.9500 1.3979 1.4233 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.504737 …


2
ベータ回帰でロジットリンクを使用する理由
最近、私は比率である結果のために、ベータ回帰モデルの実装に興味を持っています。この結果には離散的な「成功」という意味のある概念がないため、この結果は二項の状況に適合しないことに注意してください。実際、結果は実際には期間の比率です。分子は、特定の条件がアクティブであった間の秒数であり、その条件がアクティブである資格があった合計秒数です。私は気まぐれで申し訳ありませんが、このようなプロセスをベータ回帰以外にもさまざまな方法でモデル化できることに気付いているので、この正確なコンテキストにあまり重点を置きたくありません。そのようなモデルを実装しようとする私の試みで生じた質問(もちろん、私は いずれにせよ、私が見つけることができたすべてのリソースは、ベータ回帰が通常、ロジット(またはプロビット/クロログ)リンクと、ログオッドの変更として解釈されるパラメーターを使用して適合していることを示しています。ただし、このリンクを使用する理由を実際に正当化するためのリファレンスはまだ見つけていません。 元のFerrari&Cribari-Neto(2004)の論文では正当化されていません。指数パラメータのオッズ比の解釈により、ロジット関数が「特に有用」であることにのみ言及しています。他の情報源は、間隔(0,1)から実際の線にマップすることを望んでいます。しかし、すでにベータ分布を想定している場合、そのようなマッピングにはリンク関数が必ずしも必要ですか?最初にベータ分布を仮定することによって課される制約を超えて、リンク関数はどのような利点を提供しますか?いくつかのクイックシミュレーションを実行しましたが、確率リンクが主に0または1近くに集中しているベータ分布からシミュレーションした場合でも、アイデンティティリンクで(0,1)間隔の外側の予測を確認していませんが、おそらく私のシミュレーションいくつかの病状を捉えるのに十分一般的ではありませんでした。 個人が実際にベータ回帰モデルからのパラメーター推定をどのように解釈するかに基づいて(つまり、オッズ比として)、「成功」のオッズに関して暗黙的に推論しているように思えます。つまり、二項モデルの代わりにベータ回帰を使用しています。ベータ分布と二項分布の間の関係を考えると、これはおそらく一部のコンテキストでは適切ですが、これは一般的なものよりも特別なケースのように思えます。では、この質問、答えは連続割合ではなく、成果に対するオッズ比を解釈するために提供されていますが、使用するのではなく、この方法を試してみて、物事を解釈するために不必要に面倒なことに私には思われる、と言う、ログまたはIDリンクと%変更または単位シフトの解釈。 では、なぜベータ回帰モデルにロジットリンクを使用するのでしょうか。それを二項モデルに関連付けるのは、単に便宜上の問題ですか?

1
GBMパッケージとGBMを使用したキャレット
私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5%の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。 私の質問は次のとおりです。 1)これらの2つのパッケージは同じであっても違いがあるのはなぜですか(確率的ですが、5%がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの) 。 2)両方のパッケージを使用する利点または欠点はありますか? 3)無関係:irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

1
Pythonでの順序ロジスティック回帰
Pythonで順序ロジスティック回帰を実行したいと思います-3つのレベルといくつかの説明要因を持つ応答変数に対して。このstatsmodelsパッケージは、バイナリロジットモデルと多項ロジット(MNLogit)モデルをサポートしていますが、順序付けられたロジットはサポートしていません。基礎となる数学はそれほど変わらないので、これらを使用して簡単に実装できるのだろうか?(または、動作する他のPythonパッケージを高く評価します。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.