タグ付けされた質問 「logistic」

一般に、ロジスティック関数を使用する統計的手順、最も一般的にはさまざまな形式のロジスティック回帰を指します。

2
一般化線形モデルの仮定
「適用された回帰のRコンパニオン」の232ページでFoxとWeisbergのメモ ガウスファミリーのみが一定の分散を持ち、他のすべてのGLMでは、でのyの条件付き分散はμ (x )に依存します。バツバツ\bf{x}μ (x )μ(バツ)\mu(x) 以前、彼らはポアソンの条件付き分散があることに注意と二項のつまりμ (1 - μ )μμ\mu。μ (1 - μ )Nμ(1−μ)N\frac{\mu(1-\mu)}{N} ガウスの場合、これはよく知られており、頻繁に確認される仮定(ホモスケダスティシティ)です。同様に、ポアソン回帰の仮定として論じられるポアソンの条件付き分散は、違反された場合の救済策(たとえば、負の二項、ゼロ膨張など)とともによく見ます。それでも、議論された二項分布の条件付き分散をロジスティック回帰の仮定として見たことはありません。少しグーグルでそれについての言及は見つかりませんでした。 ここで何が欠けていますか? @whuberのコメントに続く編集: 提案されたように、私はホスマーとレメショーを見ています。それは興味深いものであり、私(そしておそらく他の人々)が混乱している理由を示していると思います。たとえば、「仮定」という単語は本の索引にはありません。さらに、これがあります(p。175) ロジスティック回帰では、モデルが当てはまるという仮説のもとでの診断の分布は特定の限られた設定でのみ知られているため、主に視覚的な評価に依存する必要があります かなりの数のプロットが表示されますが、さまざまな残差と推定確率の散布図に集中しています。これらのプロット(優れたモデルであっても、OLS回帰の類似したプロットに特徴的な「ぼんやりとした」パターンの特徴がないため、判断が困難です。さらに、クォンタイルプロットに類似したものは何も表示されません。 Rでは、plot.lmはモデルを評価するための優れたデフォルトのプロットセットを提供します。一部のパッケージに含まれている可能性がありますが、ロジスティック回帰に相当するものは知りません。これは、モデルのタイプごとに異なるプロットが必要になるためと考えられます。SASは、PROC LOGISTICでいくつかのプロットを提供します。 これは確かに混乱の可能性がある領域のようです!

1
ロジスティック回帰における巨大な係数-それは何を意味し、何をすべきか?
私はロジスティック回帰の間に巨大な係数を取得しkrajULKVます。 > summary(m5) Call: glm(formula = cbind(ml, ad) ~ rok + obdobi + kraj + resid_usili2 + rok:obdobi + rok:kraj + obdobi:kraj + kraj:resid_usili2 + rok:obdobi:kraj, family = "quasibinomial") Deviance Residuals: Min 1Q Median 3Q Max -2.7796 -1.0958 -0.3101 1.0034 2.8370 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -486.72087 …

4
0と1の間の範囲の結果に対するロジスティック回帰の拡張
結果が厳密に0、1ではなく、含む0から1までのすべての実数の範囲にある回帰問題があります。Y= [ 0 、0.12 、0.31 、。。。、1 ]Y=[0,0.12,0.31,...,1]Y = [ 0, 0.12, 0.31, ..., 1 ] この問題はこのスレッドで既に説明されていますが、私の質問は少し異なります。 ロジスティック回帰が通常使用されるのと同じ理由で、線形回帰を使用できません。線形回帰では、A)非常に大きなIVs値は予測結果を1にスキューし、B)線形回帰の結果は0,1の制限に制限されません。 教科書からこのロジスティックコスト関数を見る方程式が計算するように設計されていることを収集しますとが同じ値0または1を持たない場合にのみ、0より大きいコスト。y xコスト= − yログ(h (x ))− (1 − y)ログ(1 − h (x ))Cost=−ylog⁡(h(x))−(1−y)log⁡(1−h(x))\text{Cost} = -y \log(h(x)) - (1 - y) \log(1-h(x))yyyバツxx コスト関数を変更してすべての仮説エラーを測定することにより、ロジスティック回帰を使用することは可能ですか?

1
線形およびロジスティック回帰の誤差分布
連続データの場合、線形回帰は、誤差項が分布N(0、)でと想定しますσ 2Y=β1+β2X2+uY=β1+β2X2+uY=\beta_1+\beta_2X_2+uσ2σ2\sigma^2 1)Var(Y | x)も同様に〜N(0、)であると想定しますか?σ2σ2\sigma^2 2)ロジスティック回帰のこのエラー分布は何ですか?"Y"が1または0の場合、データがケースごとに1レコードの形式である場合、エラー項は分散されたベルヌーイ(つまり、分散はp(1-p)です)であり、データが形式#の場合#of試行のうち成功した場合、それは2項式(つまり、分散はnp(1-p))と見なされますか。ここで、pはYが1である確率です。

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

4
ロジスティック回帰におけるモデルの選択とモデルのパフォーマンス
ロジスティック回帰におけるモデルの選択とモデルのパフォーマンスについて質問があります。3つの異なる仮説に基づく3つのモデルがあります。最初の2つのモデル(zとxという名前を付けます)は、各モデルに1つの説明変数のみを持ち、3番目のモデル(wという名前を付けます)はより複雑です。私はwモデルの変数選択にAICを使用し、次に従属変数を最もよく説明する3つのモデルのどれを比較するのにAICを使用しています。wモデルのAICが最も低いことがわかりました。モデルの予測能力についてのアイデアを得るために、そのモデルでいくつかのパフォーマンス統計を実行したいと考えています。私が知っているのは、このモデルは他の2つよりも優れているということですが、それほど優れているわけではありません。 すべてのデータを使用してモデルを学習したので(3つのモデルをすべて比較できるようにするため)、モデルのパフォーマンスをどのようにすればよいですか?私が集めたものから、AICを使用してモデル選択から取得した最終モデルでk分割交差検証を実行することはできませんが、すべての説明変数を含めて最初から開始する必要がありますか?これがAICで選択した最後のモデルだと思いますが、そのパフォーマンスを知りたいのですが、モデルにバイアスがかかる可能性があるため、すべてのデータをトレーニングしたことを実感してください。したがって、すべてのフォールドのすべての説明変数から最初から開始する必要がある場合、いくつかのフォールドに対して異なる最終モデルを取得します。最良の予測力を提供するフォールドからモデルを選択し、それを完全なデータセットに適用して比較できますか?他の2つのモデル(zおよびx)とのAIC?またはそれはどのように機能しますか? 私の質問の2番目の部分は、過剰パラメーター化に関する基本的な質問です。私には156のデータポイントがあり、52は1、残りは0です。wモデルには14の説明変数を選択できますが、パラメーター化が多すぎるため、すべてを含めることはできません。観測値が最も少ない従属変数のグループの10%のみを使用する必要があることを読みました。私にとっては5だけでしょう。生態学の質問に答えようとしていますが、単純に生態学に基づいて従属を最もよく説明していると思う開始変数を選択しても大丈夫ですか?または、開始説明変数をどのように選択しますか?一部の変数を完全に除外するのは適切ではないと感じています。 だから私は本当に3つの質問があります: 交差検証を使用して完全なデータセットでトレーニングされたモデルでパフォーマンスをテストしても問題ありませんか? そうでない場合、交差検証を行うときに最終的なモデルをどのように選択しますか? 開始パラメーターをどのように選択すれば、パラメーター化しすぎますか? 私の乱雑な質問と私の無知のため申し訳ありません。同様の質問がされたことは知っていますが、それでも少し混乱しています。どんな考えや提案にも感謝します。

2
(0,1)によってバインドされたパーセンテージを予測するための時系列モデルとは何ですか?
これは浮かび上がるはずです--- 0と1の間で止まっているものの予測。 私のシリーズでは、自動回帰コンポーネントと平均回帰コンポーネントも疑っています。そのため、ARIMAのように解釈できるものが欲しいのですが、将来1000%まで飛ばしたくありません。 。 ロジスティック回帰のパラメーターとしてARIMAモデルを使用して、結果を0と1の間に制限しますか? または、ベータ回帰は(0,1)データに適していることをここで学びました。これを時系列にどのように適用できますか?これを簡単にフィッティングおよび予測できる優れたRパッケージまたはMatlab関数はありますか?

2
混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ
以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコード これが私のRコードです: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
ロジスティック回帰:グループ化された変数とグループ化されていない変数(Rを使用)
私はA. Agresti(2007)、An Introduction to Categorical Data Analysis、2ndを読んでいます。版であり、この段落(p.106、4.2.1)を正しく理解しているかどうかはわかりません(ただし、簡単なはずです)。 前章のいびきと心疾患に関する表3.1では、254人の被験者が毎晩いびきを報告しており、そのうち30人が心疾患を患っていました。データファイルにグループ化されたバイナリデータがある場合、データファイルの行は、これらのデータをサンプルサイズ254のうち30例の心臓病として報告します。データファイルにグループ化されていないバイナリデータがある場合、データファイルの各行は、個別の主題なので、30行には心疾患の1が含まれ、224行には心疾患の0が含まれます。ML推定値とSE値は、どちらのタイプのデータファイルでも同じです。 グループ化されていないデータのセット(1つは依存、1つは独立)を変換すると、すべての情報を含めるのに「1行」以上かかることになります!? 次の例では、(非現実的な!)単純なデータセットが作成され、ロジスティック回帰モデルが構築されます。 グループ化されたデータは実際にはどのように見えますか(変数タブ?)グループ化されたデータを使用して同じモデルをどのように構築できますか? > dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0)) > dat y x 1 0 1 2 1 1 3 0 0 4 1 0 5 0 0 > tab=table(dat) > tab x y 0 1 0 2 1 1 1 1 > …

1
複雑な式なしで、Rにブラッドリー–テリー–ルースモデルを適合させる方法は?
Bradley–Terry–Luce(BTL)モデルは、であると述べていますここで、はオブジェクトが「より良い」と判断される確率です。重い、など、オブジェクトよりも、、および、およびパラメータです。pj i= l o g私トン− 1(δj- δ私)pj私=log私t−1(δj−δ私)p_{ji} = logit^{-1}(\delta_j - \delta_i)p私はjp私jp_{ij}jjj私私iδ私δ私\delta_iδjδj\delta_j これは、家族=二項式のglm関数の候補のようです。ただし、式は「Success〜S1 + S2 + S3 + S4 + ...」のようになります。ここで、Snはダミー変数です。つまり、オブジェクトnが比較の最初のオブジェクトの場合は1、それが-1の場合です。 2番目、それ以外の場合は0。その場合、Snの係数は対応するます。d電子リットルのt Aんdeltaんdelta_n これは、少数のオブジェクトだけで管理するのはかなり簡単ですが、非常に長い式になり、オブジェクトごとにダミー変数を作成する必要が生じる可能性があります。もっと簡単な方法があるのか​​なと思います。比較される2つのオブジェクトの名前または数が変数(因子?)Object1およびObject2であり、オブジェクト1がより適切であると判断された場合、Successは1であり、オブジェクト2がそうである場合、0です。

2
通常のロジスティック回帰におけるAUC
私は2種類のロジスティック回帰を使用しています。1つはバイナリ分類用の単純なタイプで、もう1つは順序ロジスティック回帰です。最初の精度を計算するために、交差検証を使用しました。各検証でAUCを計算し、平均AUCを計算しました。通常のロジスティック回帰の場合はどうすればよいですか?マルチクラス予測子の一般化されたROCについて聞いたことがありますが、それを計算する方法がわかりません。 ありがとう!

2
分類のためにトレーニングセットから重複を削除する
分類問題のための行がたくさんあるとしましょう: バツ1、。。。バツN、Yバツ1、。。。バツN、YX_1, ... X_N, Y どこ機能/予測因子であると、行の機能の組み合わせが属するクラスです。バツ1、。。。、XNバツ1、。。。、バツNX_1, ..., X_NYYY 多くの特徴の組み合わせとそれらのクラスがデータセットで繰り返されています。これは、分類器を適合させるために使用しています。重複を削除することは許容できるかどうか疑問に思っていgroup by X1 ... XN Yます(基本的にSQLでa を実行します)?ありがとう。 PS: これは、クラスの事前分布がかなり歪んでいるバイナリプレゼンスのみのデータセット用です。

2
ケース加重ロジスティック回帰
私はいくつかのロジスティック回帰の問題を見ています。(「通常」および「条件付き」)。 理想的には、glmがより低い重みのケースを誤って分類する可能性を犠牲にしてより高い重みのケースをより正確に予測することに焦点を合わせるように、各入力ケースに重みを付けたいと思います。 確かにこれは以前に行われたことです。誰かが私をいくつかの関連文献に向けることができますか(またはおそらく修正された尤度関数を提案します)。 ありがとう!
9 logistic 

1
特徴選択のためのランダム置換テスト
ロジスティック回帰のコンテキストでの特徴選択のための順列分析について混乱しています。 ランダム置換テストの明確な説明と、それが特徴選択にどのように適用されるかを教えてください。おそらく正確なアルゴリズムと例で。 最後に、LassoやLARなどの他の収縮方法と比較してどうですか?

3
カテゴリー変数の「わからない/拒否された」レベルの扱い
私はロジスティック回帰を使用して糖尿病予測をモデル化しています。使用されるデータセットは、疾病対策センター(CDC)の 行動危険因子監視システム(BRFSS)です。独立変数の1つは高血圧です。これは、「はい」、「いいえ」、「わからない/拒否」のレベルのカテゴリーです。モデルの作成中に「Do n't know / Refused」の行を削除する必要がありますか?それらの行をモデルから保持または削除することでどのような違いがありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.