タグ付けされた質問 「logistic」

一般に、ロジスティック関数を使用する統計的手順、最も一般的にはさまざまな形式のロジスティック回帰を指します。


3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

2
ロジスティック回帰係数からオッズ比を使用してリスク比を計算する
バイナリ固定因子予測子が1つだけのバイナリロジスティック回帰があります。私がカイ二乗法またはフィッシャーの正確確率検定としてそれを行わない理由は、ランダムな要因もいくつかあるためです(個人ごとに複数のデータポイントがあり、個人はグループに属していますが、係数や有意性は気にしません)これらの確率変数の場合)。R glmerでこれを行います。 予測因子の係数と関連する信頼区間をオッズ比ではなくリスク比として表現できるようにしたいと思います。これは(おそらくあなたではなく私の聴衆にとって)リスク比がはるかに理解しやすいためです。ここでのリスク比は、予測子が0ではなく1の場合に、結果が0ではなく1になる確率の相対的な増加です。 オッズ比は、exp()を使用して係数と関連するCIから取得するのは簡単です。オッズ比をリスク比に変換するには、「RR = OR /(1 – p +(px OR))を使用できます。ここで、pはコントロールグループのリスクです」(出典:http://www.r- bloggers.com/how-to-convert-odds-ratios-to-relative-risks/)。しかし、コントロールグループのリスクが必要です。これは、私の場合、予測子が0の場合に結果が1になる可能性を意味します。モデルの切片係数は、実際にはこのチャンスのオッズであると考えているので、これを取得するには、prob = odds /(odds + 1)を使用します。リスク比率の中心的な見積もりが行く限り、私はこれについてはかなり遠いところにいます。ただし、切片係数にも独自のCIが関連付けられているため、心配なのは関連する信頼区間です。切片の中央推定値を使用する必要がありますか、それとも保守的であるために、切片CIの制限を使用して相対リスクCIを最も広くする必要がありますか?それとも私は間違った木を完全に吠えていますか?


3
ロジスティック回帰におけるカテゴリー変数のランキング
私はロジスティック回帰を使用していくつかの研究をしています。10個の変数が従属変数に影響を与えます。前述の1つは、カテゴリー(例:速達、標準配達など)です。ここで、従属変数への影響の「強さ」に基づいてそれらのカテゴリーをランク付けしたいと思います。 それらはすべて有意(小さいp値)ですが、オッズの値をランキングの目的で使用することはできないと思います。各カテゴリが他のカテゴリとも大幅に異なる場合、どういうわけか理解する必要があります。これは正しいです? 変数を中央揃えにする可能性について読みました。これは本当にオプションですか?モデルの残りの部分に影響を与えたくありません。 @subraの投稿への私のコメントをサポートするためのStata出力: Average marginal effects Number of obs = 124773 Model VCE : OIM Expression : Pr(return), predict() dy/dx w.r.t. : ExpDel ------------------------------------------------------------------------------ | Delta-method | dy/dx Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- ExpDel | .1054605 .0147972 7.36 0.000 .0798584 .1378626 ------------------------------------------------------------------------------

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

2
繰り返し再重み付けされた最小二乗法がロジスティック回帰に使用されたときに収束しない理由は何ですか?
私はRでglm.fit関数を使用して、パラメーターをロジスティック回帰モデルに適合させています。デフォルトでは、glm.fitは繰り返し重み付けされた最小二乗法を使用してパラメーターを近似します。このアルゴリズムをロジスティック回帰に使用すると、収束に失敗する理由は何ですか?

2
ロジスティック回帰の歪んだ分布
私は英国の頭部外傷の全国的外傷データベースからの遡及的データに基づいてロジスティック回帰モデルを開発しています。主な結果は30日間の死亡率です(Outcome30メジャーとして示されます)。以前の研究での転帰に対する有意な影響の公表された証拠を伴うデータベース全体にわたる他の測定には以下が含まれます: Yeardecimal - Date of procedure = 1994.0-2013.99 inctoCran - Time from head injury to craniotomy in minutes = 0-2880 (After 2880 minutes is defined as a separate diagnosis) ISS - Injury Severity Score = 1-75 Age - Age of patient = 16.0-101.5 GCS - Glasgow Coma Scale = 3-15 …

2
ロジスティック回帰で係数間の関係を強制する方法はありますか?
次の関係があるロジスティック回帰モデルを指定したいと思います。 FE[ Y私| バツ私] = f(βバツ私1+ β2バツ私2)E[Yi|Xi]=f(βxi1+β2xi2)E[Y_i|X_i] = f(\beta x_{i1} + \beta^2x_{i2})ここで、は逆ロジット関数です。fff 既存のR関数でこれを行う「迅速な」方法はありますか、またはこのようなモデルの名前はありますか?私はロジスティック回帰に使用されるNewton-Raphsonアルゴリズムを変更できることを理解していますが、これは多くの理論的およびコーディング作業であり、ショートカットを探しています。 編集:確率を最大化するためにRのoptim()または他のオプティマイザーを使用して、ポイント推定値を取得することは非常に簡単です。しかし、私はこれらの人の標準エラーが必要です。ββ\beta

2
スパース予測子変数を使用したロジスティック回帰
現在、バイナリロジスティック回帰を使用して一部のデータをモデル化しています。従属変数には多くの正のケースと負のケースがあります-それはまばらではありません。また、トレーニングセットが大きく(> 100,000)、関心のある主な効果の数は約15であるため、p> nの問題は心配していません。 私が心配しているのは、予測変数の多くが、連続している場合、ほとんどの場合ゼロであり、名目上の場合、ほとんどの場合nullであることです。これらの疎な予測子変数が> 0(またはnullではない)の値を取る場合、データに精通しているため、これらの変数が私の陽性のケースを予測する上で重要であることを知っています。これらの予測子のスパース性がモデルにどのように影響するかについての情報を探しています。 特に、スパースではなく相関しているが、実際にはポジティブケースの予測がうまくいかない別の予測変数がある場合、スパースではあるが重要な変数の影響がモデルに含まれないようにしたいと思います。 。 例を示すと、誰かが特定のアイビーリーグの大学で受け入れられるかどうかをモデル化しようとしていて、私の3つの予測因子がSATスコア、GPA、およびバイナリとしての「寄付> 100万ドル」であった場合、私には理由があります。 「寄付> 100万ドル」は、真実である場合、受け入れを非常に予測するものであると信じることです。高いGPAやSATよりもはるかに高いですが、非常にまばらです。これが私のロジスティックモデルにどのように影響しますか?また、これを調整する必要がありますか?また、別のタイプのモデル(たとえば、決定木、ランダムフォレストなど)がこれをより適切に処理しますか?

1
適切なスコアリングルールを使用して、ロジスティック回帰からクラスメンバーシップを決定する
ロジスティック回帰を使用して、イベントが発生する可能性を予測しています。最終的に、これらの確率は実稼働環境に入れられ、「はい」の予測に到達することにできるだけ焦点を当てます。したがって、この決定を通知するために使用する他の方法に加えて、どの「決定的」ヒットまたは「非ヒット」がアプリオリ(本番稼働前)であるかを知ることは有用です。 私の質問は、予測された確率に基づいて決定的なクラス(1,0)を予測する適切な方法は何ですか?具体的にglmnetは、モデリングにRのパッケージを使用しています。このパッケージは、はいまたはいいえのしきい値として0.5確率を任意に選択します。決定的なクラスに外挿するには、予測確率に基づいて適切なスコアリングルールの結果を取得する必要があると思います。私のモデリングプロセスの例を以下に示します。 mods <- c('glmnet', 'scoring') lapply(mods, require, character.only = T) # run cross-validated LASSO regression fit <- cv.glmnet(x = df1[, c(2:100)]), y = df1[, 1], family = 'binomial', type.measure = 'auc') # generate predicted probabilities across new data df2$prob <- predict(fit, type="response", newx = df2[, c(2:100)], s = 'lambda.min') …

1
ロジスティック回帰でのビン化された残差プロットの解釈
私はとロジスティック回帰しております独立変数と123 、996回の観測を。データがモデルの前提条件を満たしているかどうかを判断するためにモデルフィットを評価しており、パッケージを使用して次のビニング残差プロットを作成しました。242424123,996123,996123,996arm R このプロットには明らかにいくつかの悪い兆候があります。多くの点が信頼帯の外にあり、残差には独特のパターンがあります。私の質問は-これらの問題をロジスティック回帰モデルの特定の仮定に関連付けることはできますか?たとえば、独立変数または異分散性の非線形性の証拠があると言えますか?そうでない場合、問題がどこにあるかを特定するのに役立つ他の診断を作成できますか? ダニエルの回答に基づくと、主な問題は、ロジットスケールでは残差を使用していましたが、応答スケールでは期待値を使用していることです。残差を含むプロットを応答スケールでも再現すると、次のようになります。 それははるかに信じられます。

2
King and Zeng(2001)に記載されているまれなイベントの修正方法
バイナリ(生存)応答変数と3つの説明変数(A= 3レベル、B= 3レベル、C= 6レベル)のデータセットがあります。このデータセットでは、データはバランスが取れており、ABCカテゴリごとに100人の個人がいます。これらの、、および変数の影響についてAはB、Cこのデータセットですでに調査しました。それらの効果は重要です。 サブセットがあります。各ABCカテゴリでは、100人のうち25人のうち、およそ半分が生存しており、半分が死亡しています(12人未満が生存または死亡している場合、その数は他のカテゴリで完了していますD)。第4変数についてさらに調査されました()。ここに3つの問題があります。 KingとZeng(2001)で説明されているまれなイベントの修正を考慮して、およそ50%から50%が大きなサンプルの0/1比率に等しくないことを考慮して、データに重みを付ける必要があります。 この0と1のランダムでないサンプリングは、個人が各ABCカテゴリーでサンプリングされる確率が異なるため、大きなサンプルではグローバルな比率0/1ではなく、各カテゴリーの真の比率を使用する必要があると思います。 この4番目の変数には4つのレベルがあり、データは実際にはこれらの4つのレベルでバランスが取れていません(データの90%はこれらのレベルの1つ、たとえばlevel内にありますD2)。 King and Zeng(2001)の論文と、King and Zeng(2001)の論文に導いたこのCVの質問と、後でパッケージを試すように導いたこの別の質問logistf(私はRを使用)を注意深く読みました。King and Zheng(2001)から理解したことを適用しようとしましたが、私がしたことが正しいかどうかはわかりません。私は2つの方法があることを理解しました: 以前の修正方法については、切片のみを修正することを理解しました。私の場合、切片はA1B1C1カテゴリであり、このカテゴリの生存率は100%であるため、大きなデータセットとサブセットの生存率は同じであり、したがって、修正による変化はありません。とにかく、この方法は私には当てはまらないのではないかと思います。私は全体として真の比率ではなく、各カテゴリの比率を持っているからです。この方法はそれを無視します。 重み付け方法:w iを計算し、論文で理解したことから:「研究者が行う必要があるのは、式(8)でw iを計算し、それをコンピュータープログラムで重みとして選択して実行することです。ロジットモデル」。だから私は最初に自分glmを走らせました: glm(R~ A+B+C+D, weights=wi, data=subdata, family=binomial) 私は含めるべきであることを確認していないA、BとC私は通常、このサブサンプルの生存に影響を与えないためにそれらを期待しているので(各カテゴリには50%の生死については含まれています)、説明変数として。とにかく、重要でない場合は、出力を大きく変更しないでください。この修正により、私はレベルD2(ほとんどの個人のレベル)によく適合しますが、他のレベルD(D2優勢)にはまったく適合しません。右上のグラフを参照してください。 重み付けされていないglmモデルとw iでglm重み付けされたモデルの近似。各ドットは1つのカテゴリを表します。は、大きなデータセットのカテゴリの1の真の比率であり、サブデータセットのカテゴリの1の真の比率であり、サブデータセットに適合したモデルの予測です。各記号は、所定のレベルのを表します。三角形は水平です。Proportion in the big datasetABCProportion in the sub datasetABCModel predictionsglmpchDD2 後にが表示されたときにのみlogistf、これはおそらくそれほど単純ではありませんが。今はよくわかりません。を実行するlogistf(R~ A+B+C+D, weights=wi, data=subdata, family=binomial)と、推定値が得られますが、予測関数が機能せず、デフォルトのモデルテストは無限のカイ二乗値(1を除く)とすべてのp値= 0(1を除く)を返します。 質問: KingとZeng(2001)を正しく理解しましたか?(私はそれを理解するのにどれくらい遠いですか?) 私にglmフィット、A、B、とC有意な効果を持っています。これはすべて、サブセットで0と1の半分/半分の比率からさまざまな方法でさまざまに解析するABCということです。そうではありませんか? タウの値と値を持っているという事実にもかかわらず、キングとゼンの(2001)の重み付け補正を適用できますか? y¯y¯\bar yABCグローバル値の代わりに各カテゴリについて? D変数のバランスが非常に悪いのは問題ですか?バランスが取れていない場合、どうすればそれを処理できますか?(考慮に入れると、まれなイベントの修正のためにすでに重み付けする必要があります...「二重重み付け」、つまり重み付けを可能にすることは可能ですか?)ありがとうございます! 編集:モデルからA、B、Cを削除するとどうなるかを確認します。なぜそんな違いがあるのか​​わかりません。 …


1
ロジスティック回帰モデルを最適化する場合、データが増えると、処理が*速く*なります。なぜか?
私は、さまざまなバッチ最適化アルゴリズム(共役勾配法、ニュートンラプソン、およびさまざまな準ニュートン法)を使用したロジスティック回帰をいじっています。気づいたことの1つは、モデルにデータを追加すると、モデルのトレーニングにかかる​​時間が大幅に短縮される場合があることです。各反復では、より多くのデータポイントを調べる必要がありますが、データを追加すると、必要な反復の総数が大幅に減少する可能性があります。もちろん、これは特定のデータセットでのみ発生し、ある時点でデータを追加すると、最適化の速度が低下します。 これはよく研究された現象ですか?これが発生する理由/時期に関する詳細情報はどこで入手できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.