タグ付けされた質問 「logistic」

一般に、ロジスティック関数を使用する統計的手順、最も一般的にはさまざまな形式のロジスティック回帰を指します。

1
ロジスティック回帰モデルの操作
次のコードが何をしているかを理解したいと思います。コードを書いた人はここではもう働かず、ほとんど完全に文書化されていません。私は「考えて誰かにそれを調査するように頼まれたことは、ベイズロジスティック回帰モデルです」 bglm <- function(Y,X) { # Y is a vector of binary responses # X is a design matrix fit <- glm.fit(X,Y, family = binomial(link = logit)) beta <- coef(fit) fs <- summary.glm(fit) M <- t(chol(fs$cov.unscaled)) betastar <- beta + M %*% rnorm(ncol(M)) p <- 1/(1 + exp(-(X %*% betastar))) …

2
ロジスティック回帰とランダムフォレストの結果を組み合わせる方法
機械学習は初めてです。同じデータセットにロジスティック回帰とランダムフォレストを適用しました。したがって、変数の重要度(ロジスティック回帰の絶対係数とランダムフォレストの変数の重要度)が得られます。最終的な変数の重要度を取得するために2つを組み合わせることを考えています。誰でも彼/彼女の経験を共有できますか?バギング、ブースティング、アンサンブルモデリングを確認しましたが、それらは私が必要としているものではありません。それらは、同じモデルの情報を複製全体で組み合わせるためのものです。私が探しているのは、複数のモデルの結果を組み合わせることです。


2
複数の予測子を使用したロジスティック回帰モデルの解釈
私は、多変量ロジスティック回帰を実行してY、特定の入場期間内に特別養護老人ホームでの従属変数が死亡するようにし、次の結果を得ました(変数が開始する変数がA連続値であり、開始する変数Bがカテゴリカルである場合)。 Call: glm(Y ~ A1 + B2 + B3 + B4 + B5 + A6 + A7 + A8 + A9, data=mydata, family=binomial) Deviance Residuals: Min 1Q Median 3Q Max -1.0728 -0.2167 -0.1588 -0.1193 3.7788 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 20.048631 6.036637 3.321 0.000896 *** A1 0.051167 …
12 r  regression  logistic 

2
ロジスティック回帰モデルの強化
Adaboostは、多くの弱い学習者を組み合わせて強い学習者を形成する集団法です。私が読んだアダブーストのすべての例は、意思決定の切り株/木を弱学習者として使用しています。アダブーストで別の弱学習器を使用できますか?たとえば、ロジスティック回帰モデルを後押しするためにadaboost(通常は後押し)を実装する方法は? 分類ツリーとロジスティック回帰の主な違いの1つは、前者がクラス(-1,1)を出力するのに対し、ロジスティック回帰は確率を出力することです。1つのアイデアは、一連の機能から最適な機能Xを選択し、しきい値(0.5?)を取得して確率をクラスに変換し、次に重み付きロジスティック回帰を使用して次の機能などを見つけることです。 しかし、確率を出力する決定の切り株とは異なるさまざまな弱学習器を後押しする一般的なアルゴリズムが存在すると想像します。Logitboostが私の質問への答えだと信じていましたが、「Additive Logistic Regression」の論文を読もうとすると、途中で行き詰まりました。

1
ポアソン分布からのデータのロジスティック回帰
yがクラスラベル(0または1)であり、xがデータである、いくつかの識別的分類方法、特にロジスティック回帰について話しているいくつかの機械学習ノートから、それは次のように言われます: もし、及びX | Y = 1 〜P 、O 、I 、S 、S 、O 、N(λ 1)、次いで、P (Y | Xは)ロジスティックであろう。x|y=0∼Poisson(λ0)x|y=0∼Poisson(λ0)x|y = 0 \sim \mathrm{Poisson}(λ_0)x|y=1∼Poisson(λ1)x|y=1∼Poisson(λ1)x|y = 1 \sim \mathrm{Poisson}(λ_1)p(y|x)p(y|x)p(y|x) なぜこれが本当ですか?

3
高精度または再現率の高いバイナリ分類器を取得するには、どの損失関数を使用する必要がありますか?
非常にまれにしか発生しない(画像内で)オブジェクトの検出器を作成しようとしています。スライディング/サイズ変更されたウィンドウに適用されるCNNバイナリ分類器を使用する予定です。私はバランスのとれた1:1の正と負のトレーニングとテストセットを作成しました(そのような場合にそれを行うのは正しいことですか?)、分類器はテストセットで精度の点で問題ありません。ここで、分類子の再現率/精度を制御したいので、たとえば、過半数のクラスオカレンスの多くに誤ってラベルを付けないようにします。 (私にとって)明らかな解決策は、現在使用されているのと同じロジスティック損失を使用することですが、調整可能ないくつかの定数で2つのケースのいずれかで損失を乗算することにより、タイプIとタイプIIのエラーに異なる重みを付けます。正しいですか? PS 2番目の考えでは、これは一部のトレーニングサンプルに他のサンプルよりも重みを付けることと同じです。1つのクラスを追加するだけで、同じことを実現できると思います。

2
ロジスティック回帰とロジット線形回帰によって推定される係数はいつ異なりますか?
連続比率をモデル化する場合(例:調査区画での比例植生被覆、または活動に従事する時間の比率)、ロジスティック回帰は不適切であると見なされます(例:Warton&Hui(2011)Arcsine is asinine:the analysis of ratios in ecology)。むしろ、比率をロジット変換した後のOLS回帰、またはおそらくベータ回帰がより適切です。 R lmとを使用すると、ロジット線形回帰とロジスティック回帰の係数推定値はどのような条件下で異なりますglmか? 次のシミュレートされたデータセットを取り上げます。ここでpは、それが生データ(つまり、表すのではなく、連続比率)であると想定できます。んS U C C E S S E Sんt r i a l snsuccessesntrials{n_{successes}\over n_{trials}} set.seed(1) x <- rnorm(1000) a <- runif(1) b <- runif(1) logit.p <- a + b*x + rnorm(1000, 0, 0.2) p <- plogis(logit.p) plot(p ~ x, …
11 r  regression  logistic 

2
ロジスティック回帰における相対変数の重要度をpで定量化する方法
オンライン買い物客が一連のオンライン広告(予測子:Ad1、Ad2、およびAd3)をクリックした後に、オンライン買い物客が商品を購入する(結果:購入)かどうかを予測するためにロジスティック回帰モデルを使用するとします。 結果はバイナリ変数です。1(購入済み)または0(購入済みではありません)。予測子も2変数です:1(クリック)または0(クリックされません)。したがって、すべての変数は同じスケールです。 Ad1、Ad2、およびAd3の結果の係数が0.1、0.2、および03である場合、Ad3はAd2よりも重要であり、Ad2はAd1よりも重要であると結論付けることができます。さらに、すべての変数は同じスケールであるため、標準化された係数と標準化されていない係数は同じである必要があり、ロジット(対数オッズ)レベルへの影響の観点から、Ad2はAd1よりも2倍重要であると結論付けることができます。 しかし、実際には、logit(log-odds)ではなく、p(購入の確率)レベルの観点から変数の相対的な重要性を比較および解釈する方法をより重視します。 したがって問題は次のとおりです。これらの変数の相対的な重要度をpで定量化するアプローチはありますか?

2
カテゴリーの影響とロジスティック回帰におけるそれらの有病率を視覚化する最良の方法は何ですか?
世論調査データを使用して、候補者の投票の主要な予測因子に関する情報を提示する必要があります。気になるすべての変数を使用してロジスティック回帰を実行しましたが、この情報を提示するための良い方法が見つかりません。 私のクライアントは、効果のサイズだけを気にするのではなく、効果のサイズとそのような属性を持つ母集団のサイズとの間の相互作用について気にします。 グラフでそれをどのように処理できますか?助言がありますか? 次に例を示します。 従属変数が候補に投票/否定である場合の変数SEX(男性= 1)のは2.3です。これは、指数化され、オッズ比または確率として扱われた後の大きな数です。ただし、この調査が実施された社会では30%の男性しかいませんでした。したがって、男性はこの候補者をかなり支持しましたが、それらの数は、多数派選挙に勝とうとする候補者にとって重要ではありません。ββ\beta

3
ロジスティック回帰における変数の重要性
私はおそらく以前に100回解決された問題を扱っていますが、どこで答えを見つけることができるかわかりません。 ロジスティック回帰を使用するとき、多くの特徴与えられ、バイナリのカテゴリ値を予測しようとすると、よく予測する特徴のサブセットを選択することに興味があります。 y yバツ1、。。。、xんx1,...,xnx_1,...,x_nyyyyyy 投げ縄に似た使用可能な手順はありますか?(線形回帰に使用されるなげなわを見ただけです。) 適合モデルの係数を見て、さまざまな特徴の重要性を示していますか? 編集-いくつかの回答を見た後の説明: 当てはめられた係数の大きさについて言及するときは、正規化された(平均0および分散1)特徴に当てはめられたものを意味します。そうでない場合、@ probabilityislogicが指摘したように、1000xはxよりも重要度が低いように見えます。 (@Davideが提供していたように)最良のkサブセットを単に見つけることに興味はありませんが、さまざまな機能の相互の重要性を比較検討しています。たとえば、1つの機能は「年齢」で、もう1つの機能は「年齢> 30」です。それらの段階的な重要性は小さいかもしれませんが、両方とも重要かもしれません。

1
ロジスティック回帰の上限を5から7データポイントだけで推定する方法は?
という形式のデータがあります。からの推定には、このペーパーの式を使用します非線形回帰と非線形最小二乗 このペーパーでは、データを調べることによってを推定します。そうすれば、3ポイントしかない場合でも問題なく機能します。それから、他の2つを計算できます。Rではnls()を、C#ではLevenbergMarquardtを使用してパラメーターをテストしました。彼らによって返されたモデルは満足です。 β1β3β1y=β11+exp(β2+β3∗x)y=β11+exp⁡(β2+β3∗x)y = \frac{\beta_1}{1 + \exp(\beta_2 + \beta_3 * x)}β1β1\beta_1β3β3\beta_3β1β1\beta_1 問題は、データを調べてな推定量を取得したくないことです。プログラムで計算してください。しばらくの間、最大値より少し高い値(から\ max * 1.5の間の値)を使用しました。これは、ポイントがほとんどの関数をカバーしている限り、問題なく機能しました。データポイントは曲線の「上」からどこかにありますが、すべてが変曲点の「下」の領域からのものである場合、この推定量は予想よりも低く、モデルに適合できませんでした。これは、(途方もなく高い値で乗算することにより)最大ポイントよりも明らかに高いため、モデルは便利な方法で適合しません。β1β1\beta_1max∗1.1max∗1.1\max * 1.1max∗1.5max∗1.5\max * 1.5 測定値は次のようになります。 x =(40、50、60、70)、y =(1000、950、400、200)->推定が容易 x =(40、50、60、70)、y =(1000、950、800、100)->推定が容易 x =(40、50、60、70)、y =(500、200、100、50)->簡単に推定できない 与えられたポイントのデルタを計算し、それに応じて上限を計算することで、関数のどこにいるのか(「ボトム」、「トップ」、スロープ)を見つけることができると思います。誰かがより良い解決策のヒントを持っていますか?追加情報:それができない場合は、適合できる測定値が可能な限り良いことは私にとってより重要であり、一部の測定値はまったく適合できないことを受け入れます。 (C#での実装が必要ですが、ここに投稿しましたが、問題は言語に依存しているとは思いません) 更新(これのアプリケーション): xは温度値であり、yは対応する測定値です。本来、低温ではy値が高く、その逆のロジスティック曲線のように見えるはずです。融点は曲線の変曲点に等しく、モデルパラメータの小さな変化で大きく変化します。 更新(7つのデータポイントと60で既知の変曲点で構成されたデータ): //first I made up some data without any noise and enough (13) points double[] x17 = …

1
Rの比例オッズの仮定なしに、通常のロジスティック回帰の係数を修正する方法は?
比例オッズの仮定なしに、Rで順序ロジスティック回帰を実行したいと考えています。これはvglm()、Rを設定することで、関数in を使用して直接実行できることを知っていますparallel=FALSE。 しかし、私の問題は、この回帰設定で特定の係数セットを修正する方法ですか?例えば、従属変数言う離散的順序であり、値が取ることができるY = 1、2、または3。回帰子がX 1およびX 2の場合、回帰方程式は次のとおりです。YYYY= 1Y=1Y = 1222333バツ1X1X_{1}バツ2X2X_{2} l o g i t ( P(Y≤ 1 ))l o g i t ( P(Y≤ 2 ))= α1+ β11バツ1+ β12バツ2= α2+ β21バツ1+ β22バツ2logit(P(Y≤1))=α1+β11X1+β12X2logit(P(Y≤2))=α2+β21X1+β22X2 \begin{aligned} {\rm logit} \big( P(Y \leq 1) \big) &= \alpha_{1} + \beta_{11}X_{1} + \beta_{12}X_{2} \\ {\rm logit}\big(P(Y …
11 r  regression  logistic 

4
モデル間でロジスティック回帰係数を比較しますか?
6つの異なる横断データセットに適用するロジットモデルを開発しました。私が明らかにしようとしているのは、特定の独立変数(IV)の従属変数(DV)に対する実質的な効果に、他の説明をさまざまな時間および時間で制御する変化があるかどうかです。 私の質問は: IVとDVの関連でサイズの増加/減少をどのように評価しますか? モデル全体の係数の異なる大きさ(サイズ)を単純に確認できますか、それとも他のプロセスを実行する必要がありますか? 他に何かする必要がある場合、それは何であり、それを行うことができますか/ SPSSでそれを行う方法は? また、単一のモデル内では、 すべてが0-1でコーディングされている場合、標準化されていないスコアに基づいて独立変数の相対サイズを比較できますか、それとも標準化されたスコアに変換する必要がありますか? 標準化されたスコアに関連する問題はありますか?
11 logistic  spss 

6
Rでmlogit関数を実行した後に予測する
これが私がやりたいことですがpredict、mlogitの方法がないようです。何か案は? library(mlogit) data("Fishing", package = "mlogit") Fish <- mlogit.data(Fishing, varying = c(2:9), shape = "wide", choice = "mode") Fish_fit<-Fish[-1,] Fish_test<-Fish[1,] m <- mlogit(mode ~price+ catch | income, data = Fish_fit) predict(m,newdata=Fish_test)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.