タグ付けされた質問 「logistic」

一般に、ロジスティック関数を使用する統計的手順、最も一般的にはさまざまな形式のロジスティック回帰を指します。

7
「実行中の」線形またはロジスティック回帰パラメーターを計算するアルゴリズムはありますか?
http://www.johndcook.com/standard_deviation.htmlの論文「実行中の分散を正確に計算する」 は、実行中の平均、分散、標準偏差を計算する方法を示しています。 新しいトレーニングレコードが提供されるたびに、線形またはロジスティック回帰モデルのパラメーターを同様に「動的に」更新できるアルゴリズムはありますか?

4
二項データのANOVA
実験データセットを分析しています。データは、治療タイプと二項式の結果のペアベクトルで構成されます。 Treatment Outcome A 1 B 0 C 0 D 1 A 0 ... 結果列の1は成功を示し、0は失敗を示します。治療が結果を大きく変えるかどうかを知りたいです。4回の異なる治療があり、各実験は何度も繰り返されます(各治療で2000回)。 私の質問は、ANOVAを使用してバイナリの結果を分析できますか?または、二項データをチェックするためにカイ二乗検定を使用する必要がありますか?カイ2乗は割合が均等に分割されると仮定しているようですが、そうではありません。別のアイデアは、各治療の成功と失敗の割合を使用してデータを要約し、次に割合テストを使用することです。 この種の二項式の成功/失敗実験に意味のあるテストについてのあなたの推奨を聞きたいです。

2
ロジスティック回帰:Scikit Learn vs Statsmodels
これら2つのライブラリのロジスティック回帰からの出力が異なる結果を与える理由を理解しようとしています。 私は、UCLAのidreのからのデータセットを使用していますチュートリアル予測、admitに基づいてgre、gpaとrank。rankはカテゴリ変数として扱われるため、最初にrank_1ドロップされてダミー変数に変換されます。インターセプト列も追加されます。 df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit ~ gre + gpa + C(rank)', df, return_type = 'dataframe') X.head() > Intercept C(rank)[T.2] C(rank)[T.3] C(rank)[T.4] gre gpa 0 1 0 1 0 380 3.61 1 1 0 1 0 660 3.67 2 1 0 0 0 800 4.00 3 1 …

2
ロジスティック回帰は閉じた形でいつ解決されますか?
かかる場合x∈{0,1}dx∈{0,1}dx \in \{0,1\}^d及びy∈{0,1}y∈{0,1}y \in \{0,1\}、我々は、ロジスティック回帰を用いたX所与Yを予測するタスクをモデル化すると仮定する。ロジスティック回帰係数はいつ閉じた形で記述できますか? 1つの例は、飽和モデルを使用する場合です。 つまり、定義しますP(y|x)∝exp(∑iwifi(xi))P(y|x)∝exp⁡(∑iwifi(xi))P(y|x) \propto \exp(\sum_i w_i f_i(x_i))。ここで、iiiはのべき集合の集合にインデックスを付け{x1,…,xd}{x1,…,xd}\{x_1,\ldots,x_d\}、fifif_iは1を返します。iii番目のセットのすべての変数が1の場合、それ以外の場合は0です。次に、このロジスティック回帰モデルの各wiwiw_iを、データの統計の有理関数の対数として表現できます。 閉じたフォームが存在する場合、他の興味深い例はありますか?

4
ロジスティック回帰-エラー期間とその分布
ロジスティック回帰(およびその想定される分布)にエラー用語が存在するかどうかについて、さまざまな場所で次のことを読みました。 エラー用語は存在しません エラー項には二項分布があります(応答変数の分布に従って) エラー項にはロジスティック分布があります 誰かが明確にできますか?

4
ロジスティック回帰に適切な損失関数はどれですか?
ロジスティック回帰の損失関数の2つのバージョンについて読みましたが、どちらが正しいか、なぜですか? Machine Learningから、Zhou ZH(中国語)、:β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 私の大学のコースから、:zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = y_if(x_i)=y_i(w^Tx_i + b) L(zi)=log(1+e−zi)(2)(2)L(zi)=log⁡(1+e−zi)L(z_i)=\log(1+e^{-z_i}) \tag 2 最初のサンプルはすべてのサンプルの累積であり、2番目のサンプルは単一のサンプルに関するものであることは知っていますが、2つの損失関数の形式の違いについてはもっと興味があります。どういうわけか、私はそれらが同等であると感じています。

6
ロジスティック回帰とパーセプトロンの違いは何ですか?
Andrew Ngの機械学習に関する講義ノートを読んでいます。 このノートでは、ロジスティック回帰とパーセプトロンを紹介しています。パーセプトロンについて説明している間、注記では、ロジスティック回帰に使用されるしきい値関数の定義を変更するだけであると述べています。その後、パーセプトロンモデルを分類に使用できます。 したがって、私の質問は-これを指定する必要があり、パーセプトロンを分類手法と見なす場合、ロジスティック回帰とは正確には何ですか?クラスの1つに属するデータポイントの確率を取得するためだけに使用されますか?


1
ロジスティック回帰からの適合値の標準誤差はどのように計算されますか?
ロジスティック回帰モデルから近似値を予測する場合、標準誤差はどのように計算されますか?つまり、フィッシャーの情報マトリックスを含む係数ではなく、近似値についてです。 私はのみで数を取得する方法を見つけたR(例えば、ここでは R-ヘルプ上、またはここにスタックオーバーフロー上)が、私は式を見つけることができません。 pred <- predict(y.glm, newdata= something, se.fit=TRUE) (できれば大学のウェブサイトで)オンラインソースを提供できれば、それは素晴らしいことです。

3
ロジスティック回帰におけるオッズ比に対する単純な予測の解釈
私はロジスティック回帰を使用するのはやや新しいですが、次の値の解釈が同じだと思ったのに矛盾があるため、少し混乱しています。 指数化されたベータ値 ベータ値を使用した結果の予測確率。 これは私が使用しているモデルの簡易版です。栄養不足と保険は両方ともバイナリであり、富は連続しています。 Under.Nutrition ~ insurance + wealth 私の(実際の)モデルは、保険のために.8の指数化されたベータ値を返します。 「被保険者の栄養不足の確率は、保険のない個人の栄養不足の確率の0.8倍です。」 ただし、0と1の値を保険変数と富の平均値に入れることで個人の確率の差を計算すると、栄養不足の差はわずか.04です。次のように計算されます。 Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) / (1+exp(β0 + β1*Insurance + β2*wealth)) これらの値が異なる理由と、(特に2番目の値について)より良い解釈が何かを誰かが説明できれば、本当に感謝しています。 さらなる明確化の編集 私が理解するように、無保険の人(B1は保険に相当する)の栄養不足の可能性は次のとおりです。 Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) / (1+exp(β0 + β1*0+ β2*wealth)) 被保険者の栄養不足の可能性は次のとおりです。 Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) / (1+exp(β0 …

3
AICとc-statistic(AUC)が実際にモデルの適合を測定するものの違いは何ですか?
赤池情報量基準(AIC)とc統計量(ROC曲線の下の面積)は、ロジスティック回帰に適合するモデルの2つの尺度です。2つの測定の結果に一貫性がない場合、何が起こっているのかを説明するのに苦労しています。彼らはモデル適合のわずかに異なる側面を測定していると思いますが、それらの特定の側面は何ですか? 3つのロジスティック回帰モデルがあります。モデルM0にはいくつかの標準共変量があります。モデルM1はX1をM0に追加します。モデルM2は、X2をM0に追加します(したがって、M1とM2はネストされません)。 M0からM1とM2の両方へのAICの差は約15であり、X1とX2の両方がモデルの適合を改善し、ほぼ同じ量だけ改善することを示します。 c統計量は次のとおりです。M0、0.70。M1、0.73; M2 0.72。M0からM1へのc統計量の違いは重要ですが(DeLong et al 1988の方法)、M0からM2への違いは重要ではなく、X1はモデルの適合を改善しますが、X2はそうではありません。 X1は定期的に収集されません。X2は定期的に収集されることになっていますが、約40%のケースで欠落しています。X1の収集を開始するか、X2の収集を改善するか、両方の変数を削除するかを決定します。 AICから、変数はモデルに対して同様の改善を行うと結論付けます。完全に新しい変数(X1)の収集を開始するよりも、おそらくX2の収集を改善する方が簡単なので、X2収集の改善を目指します。しかし、c統計から、X1はモデルを改善し、X2は改善しないため、X2を忘れてX1の収集を開始する必要があります。 推奨事項は、どの統計に注目するかに依存するため、測定対象の違いを明確に理解する必要があります。 どんなアドバイスも歓迎します。
29 logistic  roc  aic  auc 

4
マクファデンの疑似R2解釈
支払い(1 =支払い、0 =支払いなし)と呼ばれる従属変数を持つMcFaddenの疑似R-2乗0.192のバイナリロジスティック回帰モデルがあります。この擬似R-2乗の解釈は何ですか? ネストされたモデルの相対比較ですか(たとえば、6変数モデルのMcFaddenの疑似R-2乗は0.192ですが、5変数モデル(前述の6変数モデルから1つの変数を削除した後)、この5変数モデルには疑似R 0.131の2乗。モデルにその6番目の変数を保持しますか?または絶対量です(たとえば、McFaddenの擬似Rが0.192の特定のモデルは、McFaddenの擬似を持つ既存のモデルよりも優れています) 0.180のR二乗(ネストされていないモデルでも)?これらはMcFaddenの擬似R二乗を見るための単なる可能な方法です;しかし、私はこれらの2つのビューが道を外れていると仮定しているため、ここでこの質問をしています。 私はこのトピックについて多くの研究を行ってきましたが、McFaddenの疑似R 2乗0.192を解釈できるという観点で、私が探している答えをまだ見つけていません。洞察や参考文献は大歓迎です!この質問に答える前に、これがロジスティック回帰モデルを説明するのに最適な尺度ではないことを認識していますが、この統計をより深く理解したいと思います!

4
ロジスティック回帰のコスト関数はどのように導出されますか
Courseraで機械学習のスタンフォードコースを受講しています。 ロジスティック回帰の章では、コスト関数は次のとおりです。 次に、ここから派生します。 コスト関数の導関数を取得しようとしましたが、まったく異なるものが得られました。 導関数はどのように取得されますか? 中間ステップはどれですか?


1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.