タグ付けされた質問 「logistic」

一般に、ロジスティック関数を使用する統計的手順、最も一般的にはさまざまな形式のロジスティック回帰を指します。

1
ロジスティック回帰の予測間隔の計算
ロジスティック回帰推定の予測間隔を生成する方法を理解したいと思います。 コレットのモデリングバイナリデータのモデリング、第2版p.98-99 の手順に従うことをお勧めしました。この手順を実装してRと比較した後predict.glm、この本は予測区間ではなく信頼区間を計算する手順を示していると思います。 Collettからの手順の実装を、と比較してpredict.glm以下に示します。 知りたいのですが、ここから信頼区間ではなく予測区間を作成する方法を教えてください。 #Derived from Collett 'Modelling Binary Data' 2nd Edition p.98-99 #Need reproducible "random" numbers. seed <- 67 num.students <- 1000 which.student <- 1 #Generate data frame with made-up data from students: set.seed(seed) #reset seed v1 <- rbinom(num.students,1,0.7) v2 <- rnorm(length(v1),0.7,0.3) v3 <- rpois(length(v1),1) #Create df representing …

3
Rで多項ロジットモデルを設定および推定する方法
JMPで多項ロジットモデルを実行し、各パラメーター推定値のAICとカイ2乗p値を含む結果を取得しました。このモデルには、1つのカテゴリー結果と7つのカテゴリー説明変数があります。 次にmultinom、nnetパッケージの関数を使用して、Rで同じモデルを構築すると考えていたものに適合させました。 コードは基本的に: fit1 <- multinom(y ~ x1+x2+...xn,data=mydata); summary(fit1); ただし、2つの結果は異なります。JMPでは、AICは2923.21、nnet::multinomAICでは3116.588です。 私の最初の質問は、モデルの1つが間違っているということです。 2つ目は、JMPが各パラメーター推定値のカイ2乗p値を提供することです。マルチノムでサマリーを実行fit1しても、推定値、AIC、および逸脱は表示されません。 私の2番目の質問はこうです:モデルのp値を取得し、使用するときに推定する方法はありnnet::multinomますか? 私が知っているmlogitは、このための別のRパッケージであり、その出力はp値が含まれてように見えます。ただし、mlogitデータを使用して実行することはできません。データは正しくフォーマットされていたと思いますが、無効な数式があったと言われました。私が使用したものと同じ式を使用しましたmultinomが、パイプを使用した別の形式が必要なようで、その仕組みがわかりません。 ありがとう。
20 r  logistic  multinomial  logit  jmp 

2
二項回帰とロジスティック回帰の違いは何ですか?
私は常にロジスティック回帰を、リンク関数がロジビット関数(プロビット関数の代わりに)である単純な二項回帰の特殊なケースと考えてきました。 しかし、私が持っていた別の質問の答えを読むと、混乱しているように思えます。ロジスティック回帰とロジスティックリンクを使用した二項回帰には違いがあります。 違いは何ですか?

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
ロジスティック回帰からの予測確率の信頼区間のプロット
ロジスティック回帰があり、このpredict()関数を使用して、推定に基づいて確率曲線を作成しました。 ## LOGIT MODEL: library(car) mod1 = glm(factor(won) ~ as.numeric(bid), data=mydat, family=binomial(link="logit")) ## PROBABILITY CURVE: all.x <- expand.grid(won=unique(won), bid=unique(bid)) y.hat.new <- predict(mod1, newdata=all.x, type="response") plot(bid<-000:1000,predict(mod1,newdata=data.frame(bid<-c(000:1000)),type="response"), lwd=5, col="blue", type="l") これはすばらしいことですが、確率の信頼区間をプロットすることに興味があります。試しましplot.ci()たが、運がありませんでした。できればcarパッケージまたはベースRを使用して、これを実現するいくつかの方法を教えてください。

2
比率と割合の線形モデルを構築していますか?
何らかの種類の比率またはパーセンテージを予測するモデルを構築するとします。たとえば、パーティーに参加する男の子と女の子の数を予測したいとします。モデルで使用できるパーティーの特徴は、パーティーの広告の量、会場のサイズ、パーティーのアルコールなどになります(これは単なる例であり、機能はあまり重要ではありません。) 私の質問は、比率とパーセンテージの予測の違いは何ですか?また、選択したモデルに応じてモデルはどのように変化しますか?一方が他方より優れていますか?他の機能はどちらよりも優れていますか?(比率と割合の具体的な数についてはあまり気にしません。どのパーティーが「男の子パーティー」と「女の子パーティー」のどちらである可能性が高いかを特定したいだけです。)たとえば、私は考え: パーセンテージ(たとえば、# boys / (# boys + # girls))を予測する場合、依存フィーチャは0と1の間に制限されているため、おそらく線形回帰ではなくロジスティック回帰のようなものを使用する必要があります。 比率を予測したい場合(たとえば、# boys / # girlsまたは# boys / (1 + # girls)ゼロ除算エラーを回避するため)、依存する特徴は正であるため、線形回帰を使用する前に何らかの種類の(ログ?)変換を適用する必要がありますか?(または、他のモデルですか?正の非カウントデータにはどのような回帰モデルが使用されていますか?) 一般的に、比率ではなくパーセンテージを予測する方がよいでしょうか?

1
ロジスティック回帰の調整済みオッズ比を理解するのに役立ちます
私は論文でロジスティック回帰の使用を理解しようとして苦労してきました。ここで利用可能な論文は、白内障手術中の合併症の確率を予測するためにロジスティック回帰を使用しています。 私を混乱させているのは、以下のように説明されているベースラインにオッズ比1を割り当てるモデルを示していることです。 リスクプロファイルがすべてのリスクインジケータの参照グループに含まれていた患者(つまり、表1のすべてについて調整されたOR = 1.00)は、「ベースラインリスクプロファイル」を持っていると見なされ、ロジスティック回帰モデルは「ベースライン予測確率」を示しますPCRまたはVLまたは両方= 0.736%の場合。 そのため、0.00736の確率は1のオッズ比で表されます。確率からオッズ比への変換に基づいて:、これは1: 。 0.00741=0.00736o=p1−po=p1−po=\frac{p}{1-p}0.00741=0.007361−0.007360.00741=0.007361−0.007360.00741=\frac{0.00736}{1-0.00736} さらに複雑になります。ベースラインとは異なる値を持つ複数の共変量を表す複合オッズ比を使用して、予測リスクを計算します。 ...表1の合成ORは1.28 X 1.58 X 2.99 X 2.46 X 1.45 X 1.60 = 34.5であり、図1のグラフから、このORはPCRまたはVLまたはその両方の予測確率に対応することがわかります約20% 論文が例として示している値に到達する唯一の方法は、ベースラインの確率に次のような複合オッズを掛けることです: 。0.2025=(34.50 × 0.00736)1 + (34.50 × 0.00736)0.2025=(34.50 × 0.00736)1 + (34.50 × 0.00736)0.2025=\frac{(34.50\ \times\ 0.00736)}{1\ +\ (34.50\ \times\ 0.00736)} ここで何が起こっているのでしょうか?0.5ではないベースライン確率にオッズ比1を割り当てるためのロジックは何ですか?私が上で思いついた更新式は、論文の例にふさわしい確率を考え出しますが、これは私が期待するオッズ比の直接的な乗算ではありません。それは何ですか?

3
まれなイベントロジスティック回帰バイアス:最小限の例で過小評価されたpをシミュレートする方法は?
CrossValidatedには、King and Zeng(2001)によるまれなイベントバイアス修正をいつ、どのように適用するかに関するいくつかの質問があります。私は別の何かを探しています。バイアスが存在するという最小限のシミュレーションベースのデモンストレーションです。 特に、王とZenの状態 「...まれなイベントデータでは、確率のバイアスはサンプルサイズが数千単位で実質的に意味があり、予測可能な方向にあります。推定イベント確率は小さすぎます。」 Rのこのようなバイアスをシミュレートする私の試みは次のとおりです。 # FUNCTIONS do.one.sim = function(p){ N = length(p) # Draw fake data based on probabilities p y = rbinom(N, 1, p) # Extract the fitted probability. # If p is constant, glm does y ~ 1, the intercept-only model. # If p is not …

2
「ロジスティック回帰」という名前の意味は何ですか?
ここからロジスティック回帰の実装を確認しています。 その記事を読んだ後、重要な部分はシグモイド関数を決定するための最良の係数を見つけることであるようです。それで、なぜこの方法が「ロジスティック回帰」と呼ばれるのか疑問に思います。対数関数に関連していますか?それをよりよく理解するために、おそらく歴史的な背景情報が必要です。

2
ロジスティック回帰におけるカテゴリカル予測子の重要性
ロジスティック回帰のカテゴリ変数のz値の解釈に問題があります。以下の例では、3つのクラスを持つカテゴリ変数があり、z値に応じて、CLASS2が関連する場合とそうでない場合があります。 しかし、これはどういう意味ですか? 他のクラスを1つにマージできますか? 変数全体が良い予測子ではないかもしれないということですか? これは単なる例であり、ここでの実際のz値は実際の問題からのものではなく、それらの解釈に問題があるだけです。 Estimate Std. Error z value Pr(>|z|) CLASS0 6.069e-02 1.564e-01 0.388 0.6979 CLASS1 1.734e-01 2.630e-01 0.659 0.5098 CLASS2 1.597e+00 6.354e-01 2.514 0.0119 *

11
ロジスティック回帰が機械学習アルゴリズムと呼ばれるのはなぜですか?
機械学習アルゴリズムで正しく理解できた場合、モデルはその経験から学習する必要があります。つまり、モデルが新しいケースに対して間違った予測を与える場合、モデルは新しい観測に適応する必要があり、やがてモデルはますます良くなります。ロジスティック回帰にはこの特性があるとは思えません。では、なぜ機械学習アルゴリズムと見なされているのでしょうか?「学習」という用語でのロジスティック回帰と通常の回帰の違いは何ですか? ランダムフォレストについても同じ質問があります! そして、「機械学習」の定義は何ですか?

2
時間を通じてロジスティック回帰の分類確率を更新する
学期の終わりに生徒が成功する確率を予測する予測モデルを構築しています。生徒が成功するか失敗するかについて、特に興味があります。成功とは、通常、コースを修了し、可能な合計ポイントのうち70%以上を獲得することと定義されます。 モデルを展開するとき、成功確率の推定値は、より多くの情報が利用可能になったときに更新する必要があります-生徒が課題を提出したり、課題を採点したときなど、何かが発生した直後が理想的です。この更新はベイジアンのように聞こえますが、教育統計のトレーニングを考えると、それは私の快適ゾーンの少し外側です。 私はこれまで、週ベースのスナップショットを含む履歴データセットでロジスティック回帰(実際にはなげなわ)を使用してきました。各学生には観測値があるため、このデータセットには相関する観測値があります。1人の生徒の観察結果は相関しています。特定の学生の毎週の観測内の相関関係を具体的にモデリングしているわけではありません。標準エラーは小さすぎるので、推論の設定でそれだけを考慮する必要があると思います。私は、これについてはわかりませんが、相関する観測から生じる唯一の問題は、データの1つのサブセットでクラスター化された観測を維持するために相互検証するときに注意する必要があることです。モデルがすでに見た人物についての予測に基づいて、人工的に低いサンプル外エラー率。Te r m L e n gt h / 7TermLength/7TermLength/7 Rのglmnetパッケージを使用して、ロジスティックモデルで投げ縄を行い、成功/失敗の確率を生成し、特定のコースの予測変数を自動的に選択しています。私は、他のすべての予測変数と相互作用する要素として週変数を使用しています。これは一般的に、個々の週ベースのモデルを推定することとは異なるとは思わないが、異なる週のさまざまなリスク調整係数によって調整される期間全体に適用される一般的なモデルがあるかもしれないというアイデアを提供します。 私の主な質問はこれです:データセットを毎週(または他の間隔ベースの)スナップショットに分割するだけでなく、他のすべての機能と相互作用する期間因子変数を導入するのではなく、分類確率を経時的に更新するより良い方法がありますか?累積機能(累積ポイント、クラスでの累積日数など)を使用していますか? 私の2番目の質問は次のとおりです。私は、相関の観測と予測モデリングについてはこちらを重要な何かが足りないのですか? 私の3番目の質問は次のとおりです。どのように私は毎週のスナップショットをやっている与えられた、リアルタイムの更新にこれを一般化することができますか?現在の毎週の間隔で変数をプラグインすることを計画していますが、これは私にとって厄介なようです。 参考までに、私は応用教育統計の訓練を受けていますが、昔から数学統計の背景を持っています。理にかなっている場合は、より洗練された何かを行うことができますが、比較的アクセスしやすい用語で説明する必要があります。

3
ロジスティック回帰はどのように二項分布を使用しますか?
ロジスティック回帰が二項分布を使用する方法を理解しようとしています。 私は鳥の巣の成功を研究しているとしましょう。巣が成功する確率は0.6です。二項分布を使用して、n回の試行(学習した巣の数)が与えられた場合のr成功の確率を計算できます。 しかし、モデリングの文脈で二項分布はどのように使用されますか?平均気温が巣の成功にどのように影響するかを知りたいとし、ロジスティック回帰を使用してこの質問を調べます。 説明したコンテキスト内で、ロジスティック回帰はどのように二項分布を使用しますか? 私は直感的な答え、したがって方程式のない答えを探しています!方程式は、直感的なレベルで理解が得られた場合にのみ役立つと思います。

2
バイナリの結果と予測子でロジスティック回帰を使用するのは理にかなっていますか?
バイナリの結果変数{0,1}と予測変数{0,1}があります。私の考えでは、他の変数を含めてオッズ比を計算しない限り、ロジスティックを行うのは理にかなっていません。 1つのバイナリ予測子では、確率の計算はオッズ比に対して十分ではないでしょうか?

6
ワイン評価を予測する線形回帰または順序ロジスティック回帰(0〜10)
ここから、0から10までの値を持つ各エントリに関連付けられた従属評価を持つ11の数値独立変数で構成されるワインデータがあります。これは、変数と関連する変数との関係を調べるために回帰モデルを使用するのに最適なデータセットになります評価。しかし、線形回帰は適切でしょうか、または多項/順序付きロジスティック回帰を使用する方が良いでしょうか? ロジスティック回帰は、特定のカテゴリ、つまり連続従属変数ではないが、(1)11のカテゴリ(少し多すぎる?)があり、(2)検査時に、それらのカテゴリのうち6〜7のデータ、つまり残りの5-4のカテゴリには、データセットに例がありません。 一方、線形回帰では、0〜10の間の評価を線形に推定する必要があります。これは、私が見つけようとしているものに近いようです。それでも、従属変数はデータセット内で連続的ではありません。 どちらが良いアプローチですか?注:分析にRを使用しています 回答に記載されているいくつかのポイントに対処して編集します。 これは実際には大学のコースであるため、ビジネス目標はありません。タスクは、私が適切と思う方法で、選択したデータセットを分析することです。 評価の分布は正常に見えます(ヒストグラム/ qqプロット)。データセットの実際の値は3〜8です(技術的には0〜10です)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.