タグ付けされた質問 「logistic」

一般に、ロジスティック関数を使用する統計的手順、最も一般的にはさまざまな形式のロジスティック回帰を指します。

1
ロジスティック回帰の多項式項
2次までの多項式項を含むロジスティック回帰モデルを作成しました。ロジスティック回帰は応答変数を予測子の非線形関数としてモデル化していることを知っています。ロジスティック回帰に多項式の項を含めることは意味がありますか?

1
ロジスティック回帰における過剰分散のテスト
R in Action(Kabacoff、2011年)は、ロジスティック回帰の過分散をテストするために次のルーチンを提案しています。 二項分布を使用してロジスティック回帰を近似します。 model_binom <- glm(Species=="versicolor" ~ Sepal.Width, family=binomial(), data=iris) 準二項分布を使用してロジスティック回帰を近似します。 model_overdispersed <- glm(Species=="versicolor" ~ Sepal.Width, family=quasibinomial(), data=iris) カイ二乗を使用して、過剰分散をテストします。 pchisq(summary(model_overdispersed)$dispersion * model_binom$df.residual, model_binom$df.residual, lower = F) # [1] 0.7949171 カイ二乗分布がここで過剰分散のテストに使用されている方法と理由を誰かが説明できますか?p値は0.79です。これは、過剰分散が二項分布モデルの問題ではないことをどのように示しますか?

1
完全分離の問題をどのように説明して提示するか?
ロジスティック回帰との仕事は完全な分離の問題に精通している人々 :あなたは2つの結果の一つだけに関連付けられているの変数の特定の値を持っている場合(バイナリが言う持つすべての観測よう、X = 1が持っている結果= 1 )、可能性が爆発し、最尤推定値が無限大になります。Rでは、完全な予測/分離以外の理由で完全な予測エラーメッセージが表示される可能性があるため、これを非常にうまく処理できる場合とそうでない場合があります。Stataでは、そのような変数と問題のある値を識別し、それらを分析から破棄します。バツxxx = 1x=1x=1glmlogit 私の質問は、あなたが完全に分離している場合に何をすべきかとは異なります。変数を再コード化することで処理できること(変数はすべてカテゴリなので、単純にカテゴリを組み合わせることができます)。 代わりに、これを説明する一般的な方法は何でしょうか。私は約50%の割合が「陽性」である約100人の患者のデータセットを持っています。人口統計変数のいくつかのカテゴリは、この完璧な予測を生成します。7人すべての緑色の目の人々が「肯定的な」結果を持っているとだけ言いましょう。これは、サンプルサイズが1000で緑色の目が70人の場合に消える小さなサンプルの特徴かもしれませんが、臨床的に意味があるかもしれません。オッズ比が高い「ポジティブ」な結果。 したがって、ベイジアン法またはその他の収縮法を使用したと言ってもいいのですが、その方法を説明する際に、完全な予測/分離ができたことを認める必要があり、さらに高度な手法を見つけて結果を得る必要がありました。すべて。ここで使用するのに適した言語は何ですか?

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
ロジスティック回帰の確率
私はRでロジスティック回帰モデルを作成しましたが、結果はある程度満足できるように見えますが、対処できない質問が1つあります。私のアプローチがまったく正しいかどうかはわかりません。 私は、ロジスティックモデルの全体的な目的がバイナリ確率変数の成功確率を予測することであることを知っています。同じロジスティックモデルから、特定の比率の確率を知ることは可能ですか?たとえば、学校に入学する確率を計算することに関心があり、その確率を推定するためにロジスティック回帰を使用するとします。これは、いくつかの独立変数に明らかに依存します。私の質問は同じモデルですが、その特定の学校に入学する学生の割合を推定することは可能ですか? 私はそれを答えるために二項確率を使用しようとしましたが、何らかの理由でそれは私に正しい答えを与えません。どうやってそれをやりましたか。成功の確率がわかっている場合は、従属変数がパラメーターNとPの二項分布に従うこともわかります。ここで、Nは試行回数、Pはロジスティックモデルから推定できる成功の確率です。したがって、比率がpと等しいかそれより低い確率が必要な場合、これは、N回の試行で成功確率がPであるN * p成功またはそれ以下の確率に等しいと考えました。 PS私は成功の確率が全体的な比率/比率であることを知っていますが、私が興味を持っているのは、特定のグループの確率を見つけることです。グループの特性をモデルに含めることができますが、私の場合はそれで制限されます。実際、私は特定のグループの成功よりも、ロジスティックモデルから比率の確率を見つけることに関心があります。 ありがとう

2
カテゴリー応答変数予測
次の種類のデータ(Rでコード化)があります。 v.a = c('cat', 'dog', 'dog', 'goat', 'cat', 'goat', 'dog', 'dog') v.b = c(1, 2, 1, 2, 1, 2, 1, 2) v.c = c('blue', 'red', 'blue', 'red', 'red', 'blue', 'yellow', 'yellow') set.seed(12) v.d = rnorm(8) aov(v.a ~ v.b + v.c + v.d) # Error v.bまたはの値にの値v.cを予測する能力があるかどうかを知りたいのですがv.a。私は(上記のように)分散分析を実行しますが、私の応答変数は序数ではないため(カテゴリカルであるため)、意味がありません。私は何をすべきか?

2
複数選択のカテゴリカル応答変数を使用したバイナリロジスティック回帰のセットの使用
13か国の特定の政策分野に対する人々の態度に関するカテゴリー調査データがあります。応答変数はカテゴリ型であり、順序付けできない4つの異なる回答が含まれています。 マルチレベルのランダム切片とランダムスロープの多項式モデルを構築したいと思います。問題は、レベル2のケースの数が13であり、モデルが少なくとも多項式の形では収束しないことです。 したがって、次善のオプションとして、応答変数をバイナリ形式に再コード化し、一連のマルチレベルのロジスティック回帰を実行し、予測確率を使用して、特定の関心のあるカテゴリが選択される確率がどのように依存するかを示します私の説明変数について。これは明らかに、次善の策にすぎません。このアプローチをとることで起こり得るリスクは何か、そして(査読者、監督者などから)どのような反論を期待すべきか知りたいのですが。

3
ロジスティック回帰における変換間の選択
線形回帰では、従属変数との相関が最大になるように説明変数の変換が行われます。 従属変数はバイナリで連続的ではないので、ロジスティック回帰で複数の変換を選択する最良の方法は何ですか? 最終目標は、モデルのリフト(予測力)を最大化することです。

2
比率である従属変数をロジスティック回帰に適合させることは技術的に「有効」ですか?
いくつかの投稿(hereとhere)は、従属変数が自然に0と1の間にある場合にベータ回帰がより適切であることを示唆しています。Rは警告をスローしますが、結果を生成します。 応答変数がバイナリではなく比例している場合、尤度関数は有効な尤度ではないように見えますが、数学的には、最小化して解を得ることができます。ロジスティック回帰を比例データに当てはめるときに、違反/間違いがある場合はどうなるのでしょうか。

2
Rによる大規模なCox回帰(ビッグデータ)
Rのみを使用して、サンプルの2,000,000行のデータセットで次のようにCox回帰を実行しようとしています。これは、SASのPHREGの直接変換です。サンプルは、元のデータセットの構造を表しています。 ## library(survival) ### Replace 100000 by 2,000,000 test <- data.frame(start=runif(100000,1,100), stop=runif(100000,101,300), censor=round(runif(100000,0,1)), testfactor=round(runif(100000,1,11))) test$testfactorf <- as.factor(test$testfactor) summ <- coxph(Surv(start,stop,censor) ~ relevel(testfactorf, 2), test) # summary(summ) ## user system elapsed 9.400 0.090 9.481 主な課題は、元のデータセット(2m行)の計算時間です。私が理解している限り、SASではこれに最大で1日かかる可能性がありますが、少なくとも終了します。 わずか100,000の観測で例を実行すると、わずか9秒しかかかりません。その後、観測数が100,000増加するごとに、時間はほぼ二次関数的に増加します。 私は操作を並列化する手段を見つけていません(たとえば、可能であれば48コアマシンを活用できます) どちらbiglmも革命Analyticsのすべてのパッケージには、Cox回帰のために利用可能である、と私はそれらを活用することはできません。 これをロジスティック回帰(Revolutionにパッケージがある)の観点から、またはこの問題に対する他の代替手段があるかどうかを表す手段はありますか?それらは根本的に異なることは知っていますが、状況に応じて可能性として私が推測できる最も近いものです。

1
ロジスティック回帰での最新性の適用
最近のイベントが古いイベントよりも重要度が高い場所までの有効性を効果的に測定する方法に関する統計的概念または理論はありますか?私はロジスティック回帰モデルを作成していますが、イベントの最新性に基づいてさまざまな要因に調整を適用したいと考えています。 ...または、任意の式を考え出すのは純粋に私次第ですか? 例:私のプロジェクトの1つは、今後のトーナメントにおけるプロゴルファーのパフォーマンスをロジスティック回帰によって予測することです。彼らの最近の形式(先週のプレイ方法)は、6か月前のプレイ方法よりも一般的に重要です。このコンセプトを利用する特定のテクニック/アプローチはありますか?

1
すべての対数線形モデルには、完全に同等のロジスティック回帰がありますか?
対数線形モデルを調査データの多数の変数に適合させようとしています。代わりにロジスティック回帰をそのデータに当てはめることが望ましい場合があるいくつかの理由があります。いくつかの当局は、これらは同等であると示唆しています。しかし、私はこれを疑ういくつかの理由があります。 対数線形モデルはすべての変数を同等に扱いますが、ロジスティック回帰では1つの変数を応答変数として識別する必要があります。 最小二乗のコンテキストでは、Y = a + bX +ε対X = c + dY +εの場合、パラメーターdが約1 / bに等しいことは一般的ではありません。これは、最初の方程式が垂直誤差を最小限に抑え、2番目の方程式が水平誤差を最小限に抑えるためです。これらは、推定された線の周りで誤差が対称である場合にのみ等しくなります。そのため、これがロジスティック回帰にも当てはまるのではないかと心配しています。(2)は、実際には(1)の特定の形式にすぎません。つまり、特定の変数を応答として選択することにより、回帰形式で非対称になる可能性があります。 対数線形モデルのすべての変数が1つ以上の交互作用項に含まれている場合、ロジスティック回帰がどのように等価になるかはわかりません。応答変数がロジスティック回帰のコンテキストに含まれる相互作用をどのように表現しますか? Bill Huberに応えて、私はWikipediaよりもかなり制限された意味で対数線形モデルという用語を使用しています。テーブルに配置されたカテゴリーまたは順序カウントデータのモデルを参照します。係数はテーブルカウントの合計、各因子のマージナルカウントをテーブルカウントの合計(確率のプロキシとして機能)で割った値、およびさまざまな交互作用項です。これは、とりわけ、Agrestiで使用されている「カテゴリデータ分析」の意味です。

2
Rの2因子反復測定ANOVA後の事後検定?
Rで2因子(両方とも被験者内)のANOVAを繰り返し測定した後、事後テスト(Tukey HSD)を実行する方法に関する解決策を見つけるのに問題があります。ANOVAには、aov -functionを使用しました。 summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) 他の質問への回答を読んだ後、他の機能(lmeなど)を使用してANOVAを再実行する必要があることを知りました。これが私が思いついたものです。 Lme.mod <- lme(dv ~ x1*x2, random=list(subject=pdBlocked(list(~1, pdIdent(~x1-1), pdIdent(~x2-1)))), data=df1) anova(Lme.mod) 主な効果はどちらも有意でしたが、相互作用の効果はありませんでした。次に、これらの関数を事後比較に使用しました。 summary(glht(Lme.mod, linfct=mcp(x1="Tukey"))) summary(glht(Lme.mod, linfct=mcp(x2="Tukey"))) しかし、いくつかの問題がありました: まず、Rヘルプファイルには、「双方向ANOVAまたはANCOVAモデル(...)multcompバージョン1.0-0以降で対象のパラメーターを定義する場合、mcp関数は注意して使用する必要があります。主な効果の比較が生成されます。のみ、共変量と交互作用を無視します(古いバージョンは交互作用項で自動的に平均化されました)警告が表示されます。そして確かに、私は次の警告メッセージを受け取りました: Warning message: In mcp2matrix(model, linfct = linfct) : covariate interactions found -- default contrast might be inappropriate もう1つの不可解な点は、両方の主要な効果は有意でしたが、要因の1つ(x1)の事後比較に有意差はなかったということです。これに出会ったことはありません。スクリプト/分析は正しい/適切ですか、それとも欠けているものはありますか?どんな助けでも大歓迎です!

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

4
ロジスティック回帰とマンホイットニー/ t検定の選択
私は、先験的に決定された0と1の比率を持たない二分変数と、連続変数持っています。ああAbbb シナリオ1では、Iが指定する決めるとして独立変数、およびのように従属 変数。次に、マンホイットニー(分布なし)、t検定(正規分布)などの検定を使用して、をに対して検定します。ああAバツバツXbbbyyyバツバツXyyy シナリオ2では、私が指定することを決定したように従属変数、及びなどの独立 変数。次に、ロジスティック回帰を使用してをに対してテストします。ああAYYYbbbx YバツバツxバツバツxYYY と関係の方向性がわからない場合、つまりが独立変数であるかが独立変数であるかを判断できない場合、どのモデルを選択する必要がありますか?b A bああAbbbああAbbb 従属変数と独立変数のどちらがわからない場合、最初のインスタンスでt検定/マンホイットニーを一種の単変量分析として使用し、ロジスティック回帰を多変量分析として使用することは無効ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.