タグ付けされた質問 「logistic」

一般に、ロジスティック関数を使用する統計的手順、最も一般的にはさまざまな形式のロジスティック回帰を指します。

1
ロジスティック回帰の最尤推定量のバイアス
ロジスティック回帰の最尤推定量(MLE)に関するいくつかの事実を理解したいと思います。 一般に、ロジスティック回帰のMLEが偏っているのは本当ですか?「はい」と言います。たとえば、サンプルの次元はMLEの漸近バイアスに関連していることを知っています。 この現象の基本的な例を知っていますか? MLEが偏っている場合、MLEの共分散行列が最尤関数のヘッセ行列の逆であることは本当ですか? 編集:私はこの公式にかなり頻繁に出会い、証明はありません。それは私にはかなり恣意的な選択のようです。

1
どのブートストラップ回帰モデルを選択すればよいですか?
私は、DV(病気:はい/いいえ)と5つの予測因子(人口統計[年齢、性別、喫煙(はい/いいえ)]、医療指標(通常)、1つのランダムな処理[はい/いいえ]のバイナリロジスティック回帰モデルを持っています])。また、すべての両側相互作用項をモデル化しました。主な変数は中央に配置され、多重共線性の兆候はありません(すべてのVIF <2.5)。 いくつか質問があります。 ブートストラップは私の単一のモデルよりも有利ですか?もしそうなら、 どのブートストラップモデルを選択すればよいですか?私は、ブートストラップアルゴリズムが新しいサンプルを作成するためのランダムな方法に従っているかどうか、または厳密なアルゴリズムがあるかどうかを確認したかっただけです。したがって、私は各試行で1000回リサンプリングしました(そのため、ブートストラップされたモデルがいくつかあり、それぞれに1000回の試行があります)。ただし、ブートストラップモデルの係数は毎回異なります(ただし、試行回数は常に1000です)。だから私は私のレポートのためにどちらを選ぶべきかと思いますか?一部の変更はわずかであり、係数の有意性に影響を与えませんが、一部の係数は重要ではなくなります(たとえば、元のモデルで0.05に近いP値が0.06に変化するもののみ)。 10,000のようなより大きな数を選択する必要がありますか?この制限をどのように決定できますか? ここでも、最初にブートストラップする必要がありますか?結果が毎回異なる場合、その結果を信頼できますか? 私のケースで私を助けることができる他の考えを覚えていますか? 大変感謝します。

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

4
Rのロジスティック回帰モデルに適合しない場合のピアソンの検定統計量を計算するにはどうすればよいですか?
尤度比(別名逸脱)統計と適合度(または適合度)検定は、Rのロジスティック回帰モデル(関数を使用して適合)を取得するのはかなり簡単です。ただし、いくつかのセル数が十分に少なくなり、テストの信頼性が低下します。適合度不足の尤度比検定の信頼性を検証する1つの方法は、その検定統計量とP値をピアソンのカイ二乗(または\ chi ^ 2)適合度検定のそれらと比較することです。G2G2G^2glm(..., family = binomial)χ2χ2\chi^2 glmオブジェクトもそのsummary()メソッドも、ピアソンのカイ二乗検定の適合性の検定統計量を報告しません。私の検索では、思いついたのはchisq.test()(statsパッケージ内の)関数だけです。そのドキュメントには、「chisq.testカイ2乗分割表テストと適合度テストを実行する」と記載されています。ただし、そのようなテストを実行する方法についてのドキュメントはまばらです。 場合はx一つの行または列を持つ行列である場合、またはxベクターであり、yその後、与えられていない適合度(テストが行われるx一次元分割表として扱われます)。のエントリは、x負でない整数でなければなりません。この場合、テストされる仮説は、母集団の確率がの確率と等しいか、与えられないp場合pはすべて等しいかどうかです。 の引数にオブジェクトのyコンポーネントを使用できると思います。ただし、エラーが発生するため、の引数にオブジェクトのコンポーネントを使用できません: " "glmxchisq.testfitted.valuesglmpchisq.testprobabilities must sum to 1. (Rで)手動でステップを実行することなく、少なくともピアソンの検定の統計を計算して適合性の欠如を調べるにはどうすればよいですか?χ2χ2\chi^2

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
「推論の拒否」とは何ですか?また、それを使用してモデルの精度を高めるにはどうすればよいですか?
誰でも詳細に説明できますか: 推論の拒否とはどういう意味ですか? モデルの精度を上げるためにどのように使用できますか? クレジットカードアプリケーションで推論を拒否するという考えはありますが、モデルの精度を上げるためにそれを使用することについての考えに苦労しています。
10 logistic 

1
複数回答の調査質問にどのように対処しますか?
私は人々に特定の場所(A、B、C、Dなど)に行ったことがあるかどうかを尋ねるデータセットを持っています。彼らは複数の選択を行うことができます。次に、鼻から検体を採取して、どこかに感染しているかどうかを確認します疾患。 特定の場所に行く人が感染する相対的なリスクを調べる必要があります。現時点ではロジスティック回帰しか考えられませんが、他に何か提案はありますか? ありがとう。
10 logistic 

1
Rでのロジスティックモデルの出力
次のタイプのロジスティックモデルを解釈しようとしています。 mdl <- glm(c(suc,fail) ~ fac1 + fac2, data=df, family=binomial) predict(mdl)各データポイントの成功の予想オッズの出力ですか?すべてのデータポイントではなく、モデルの各因子レベルのオッズを集計する簡単な方法はありますか?

1
テーブルに対してフィッシャーの厳密検定とロジスティック回帰を使用した場合の違いは何ですか?
以下のために台、テーブルの上に推論を行うには、2つの方法はまた、フィッシャーの正確確率検定とロジスティック回帰を介して行われます。2 × 22×22 \times 2 フィッシャーの厳密検定を使用すると、私たちは関連の存在にのみ関心があると言われました。しかし、ロジスティック回帰では、関連の大きさに関心があります。 しかし、その理由はわかりません。たとえば、Rで行われるフィッシャーの正確検定では、信頼区間でオッズ比が返されますが、ロジスティック回帰では切片と勾配が返されます。どちらも対数オッズと対数オッズに対応しています。比。 私の質問は、ロジスティック回帰が関連性の大きさをどこにもたらすかです。係数内にあると想定していますが、これは対数オッズ比であり、フィッシャーの正確検定でも同様です。違いは何ですか?β1β1\beta_1

6
ロジスティック回帰はすべて1を予測し、0は予測しない
私は、ロジスティック回帰とランダムフォレストを使用して、ローンのデフォルトの確率を分析しています。 私がロジスティック回帰を使用する場合、予測は常にすべて1です(これはローンが良いことを意味します)。私はこれを見たことがなく、問題を解決するためにどこから始めればよいかわかりません。60万行の22列があります。列の数を減らすと、ロジスティック回帰で同じ結果が得られます。 なぜロジスティック回帰はそれほど間違っているのでしょうか? **Actual from the data** 0 : 41932 1 : 573426 **Logistic regression output** prediction for 1 when actually 0: 41932 prediction for 1 when actually 1:573426 A**s you can see, it always predicts a 1** **Random forests does better:** actual 0, pred 0 : 38800 actual 1, …

1
相互作用項をロジスティック回帰モデルに含めると、線形性の仮定を評価するのに役立つのはなぜですか?
でSPSS使って発見統計アンディ・フィールドで第4版を、それが独立変数間の相互作用の項含めることをお勧めしとそれに対応する自然対数変換直線性の仮定の違反をチェックするための変数を。この背後にある統計理論は何ですか?xxxln(x)ln⁡(x)\ln(x) これは本からの引用: この仮定は、予測子とその対数変換の間の交互作用項が有意であるかどうかを調べることによってテストできます(Hosmer&Lemeshow、1989)。 最近、この変換がBox-Tidwell変換と呼ばれていることもわかりました。

3
ロジスティック回帰モデルの正しい方法で予測子を減らす方法
現在の状況では、バイナリ応答データに基づいてロジスティックモデルを実行する必要があるため、モデリング(特にハレルの「回帰モデリング戦略」)に関する本(またはその一部)を読んでいます。データセットに、連続データ、カテゴリデータ、およびバイナリデータ(予測子)の両方があります。基本的に、私は現在約100の予測子を持っていますが、これは優れたモデルには明らかに多すぎます。また、これらの予測子の多くは、多少は異なりますが、同じメトリックに基づいていることが多いため、一種の関連性があります。 とにかく、一変量回帰と段階的手法を使用して私が読んでいることは、予測変数の量を減らすために実行できる最悪のことです。LASSOテクニックは(私がそれを正しく理解していれば)非常に大丈夫だと思いますが、明らかに100の予測子でそれを使用することはできません。 だからここで私の選択肢は何ですか?私は本当に座って、すべての上司、職場の賢い人々と話をし、トップ5の最良の予測因子が何である/するべきか(私たちは間違っているかもしれません)、またはどのアプローチが必要かについて本当に考えなければなりませんか?代わりに検討しますか? そして、はい、このトピックについてはオンラインと本でかなり議論されていることも知っていますが、このモデリング分野に少し慣れていないと、少し圧倒されるように見えることがあります。 編集: まず第一に、私のサンプルサイズは+1000人の患者であり(これは私の分野ではたくさんあります)、そのうち70-170の肯定的な応答があります(つまり、はいの応答が170であるのに対し、ケースの1つではおよそ900の応答がありません)。 。 基本的には、考えは放射線治療後の毒性を予測することです。予想されるバイナリレスポンスデータがいくつかあり(つまり、毒性があるか(1)、ないか(0))、いくつかのタイプのメトリックがあります。一部のメトリックは患者固有のものです。たとえば、年齢、使用する薬物、臓器とターゲットのボリューム、糖尿病などです。次に、ターゲットのシミュレーションされた治療フィールドに基づいたいくつかの治療固有のメトリックがあります。ほとんどの毒性は、受けた放射線(iedose)の量と非常に相関しているので、そのことから、私の分野でよく関連するいくつかの予測因子を取得できます。たとえば、私が肺腫瘍を治療する場合、ある程度の線量で心臓を打つリスクがあります。次に、心臓容積のx量がx量の投与を受ける量を計算できます。t始めに1つを選択するだけです(これは、過去の実験がもちろん試みたものであり、私が望んでいることでもあります)。これは、心臓毒性の間で実際に大きな相関がある程度を「正確に」知る必要があるためです。と体積線量(ここでも、例として、同じ戦略が適用される他の同様のメトリックがあります)。ええ、そうです、私のデータセットはこのようになっています。いくつかの異なるメトリック、およびいくぶん類似したいくつかのメトリック。t始めに1つを選択するだけです(これは、過去の実験がもちろん試みたものであり、私が望んでいることでもあります)。これは、心臓毒性の間で実際に大きな相関がある程度を「正確に」知る必要があるためです。と体積線量(ここでも、例として、同じ戦略が適用される他の同様のメトリックがあります)。ええ、そうです、私のデータセットはこのようになっています。いくつかの異なるメトリック、およびいくぶん類似したいくつかのメトリック。s私のデータセットがどのように見えるかということです。いくつかの異なるメトリック、およびいくぶん類似したいくつかのメトリック。s私のデータセットがどのように見えるかということです。いくつかの異なるメトリック、およびいくぶん類似したいくつかのメトリック。 次に、予測モデルを作成して、どの患者が何らかの毒性を受けるリスクがあるかを予測できるようにしたいと思います。そして、応答データはバイナリであるため、私の主なアイデアはもちろんロジスティック回帰モデルを使用することでした。少なくともそれは、私の分野で他の人々が行ったことです。ただし、既に行われているこれらの論文の多くを読んでいると、いくつかの問題が正しくないように見えます(少なくともF.ハレルのような特定のタイプのモデリングに関する本を読んでいるとき)。多くの場合、単変量回帰分析を使用して予測子を選択し、多変量分析で使用します(私が誤解していない場合はお勧めしません)。また、予測子の量を減らすために段階的な手法を使用することもあります。もちろん、すべてが悪いわけではありません。LASSO、PCA、相互検証、ブートストラップなどを多く使用していますが、私が見てきたものは、 機能の選択に関しては、これがおそらく私が今いるところです。モデルで使用する適切な予測子を選択/検索するにはどうすればよいですか?私はこれらの単変量/段階的アプローチを試しましたが、毎回「それが間違っているのに、なぜそうするのか?」しかし、おそらくそれは、少なくとも最終的には、「良いモデル」がどのようにして正しい方法を行ったかが「悪いモデル」が間違った方法で行われたかを示す良い方法かもしれません。ですから、おそらくやや間違った方法でそれを行うことができるでしょう。私が助けを必要としているのは、正しい方法でそれを行う方向を取得することです。 編集してすみません、それはとても長いです。 編集2: 私のデータがどのように見えるかの簡単な例: 'data.frame': 1151 obs. of 100 variables: $ Toxicity : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 1 1 1 1 ... $ Age : num 71.9 64 52.1 65.1 63.2 ... $ Diabetes …

2
ロジスティック回帰がうまく調整されているのはなぜですか?
確率キャリブレーションに関するscikit学習ドキュメントでは、ロジスティック回帰を他の方法と比較し、ランダムフォレストはロジスティック回帰よりも適切にキャリブレーションされていないことを指摘しています。 ロジスティック回帰がうまく調整されているのはなぜですか?どのようにしてロジスティック回帰のキャリブレーションを台無しにすることができますか?


3
他のリグレッサのロジスティック回帰残差の回帰
OLS回帰を連続応答に適用すると、各共変量の残差の回帰を順次実行することにより、重回帰方程式を構築できます。私の質問は、ロジスティック回帰の残差を介したロジスティック回帰でこれを行う方法はありますか? 私は推定したい場合には、あるPr (Y= 1 | x 、z)Pr(Y=1|x,z)\Pr(Y = 1 | x, z)アプローチをモデル化線形一般化標準を使用して、反対ロジスティック回帰を実行するための方法がありバツxxおよび擬似残差が得るR1R1R_1、その後、後退R1R1R_1上zzzロジスティック回帰係数の不偏推定量を取得します。教科書や文献への参照をいただければ幸いです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.