タグ付けされた質問 「logistic」

一般に、ロジスティック関数を使用する統計的手順、最も一般的にはさまざまな形式のロジスティック回帰を指します。

5
まれなイベントのロジスティック回帰に対処する戦略
限られた人口の中でまれな出来事を研究したいと思います。どの戦略が最適かわからないので、この問題に関連するヒントと参考文献をいただければ幸いです。どこから始めればいいか分からない。 私の問題は政治学の問題であり、515,843のレコードからなる有限の人口を持っています。これらは、513,334個の「0」と2,509個の「1」を持つバイナリ従属変数に関連付けられています。人口の0.49%しか占めていないため、「1」をまれなイベントとして作成できます。 「1」の存在を説明するためにモデルを構築したい約10個の独立変数のセットがあります。私たちの多くと同様に、私はKing&Zengの2001年のまれなイベントの修正に関する記事を読みました。彼らのアプローチは、ケースコントロール設計を使用して「0」の数を減らし、インターセプトに修正を適用することでした。 ただし、この投稿では、King&Zengの議論は、母集団全体で既にデータを収集している場合は必要ないと述べています。これは私の場合です。したがって、古典的なロジットモデルを使用する必要があります。私にとって残念なことに、有意な係数は得られますが、私のモデルは予測の観点からはまったく役に立ちません(私の「1」の99.48%を予測できません)。 King&Zengの記事を読んだ後、ケースコントロールデザインを試したいと思い、すべての「1」で「0」の10%だけを選択しました。ほぼ同じ係数で、モデルは全母集団に適用された場合、「1」のほぼ3分の1を予測することができました。もちろん、多くの偽陽性があります。 したがって、3つの質問があります。 1)人口に関する十分な知識があるときにKing&Zengのアプローチが不利な場合、記事で人口を知っている状況を使用して、そのポイントを証明するのはなぜですか? 2)ロジット回帰の係数が十分であり、予測力が非常に低い場合、これらの変数によって説明される変動は無意味であることを意味しますか? 3)まれなイベントに対処するための最良のアプローチは何ですか?キングのリロジットモデル、ファースのアプローチ、正確なロジットなどについて読んだ。

1
一般化推定方程式とGLMMの違いは何ですか?
ロジットリンクを使用して、3レベルの不均衡データでGEEを実行しています。これは、混合効果(GLMM)とロジットリンクを備えたGLMと(描画できる結論と係数の意味に関して)どのように異なりますか? 詳細:観察は単一ベルヌーイ試験です。それらは教室と学校にクラスター化されます。Rの使用。NAのケースワイズ省略。6予測子も相互作用項。 (私は子供たちがヘッズアップで着地するかどうかを確認するためにひっくり返していません。) 係数をオッズ比に累乗する傾向があります。これは両方で同じ意味を持っていますか? GEEモデルの「限界的手段」について、私の心の奥に何かが潜んでいます。私にそのビットを説明する必要があります。 ありがとう。

6
ロジスティック回帰のサンプルサイズは?
調査データからロジスティックモデルを作成します。これは、154人の回答者のみがインタビューされた4つの居住コロニーの小規模な調査です。私の従属変数は「仕事への十分な移行」です。154人の回答者のうち、73人は仕事に十分に移行したが、残りはそうではないと答えたことがわかりました。したがって、従属変数は本質的にバイナリであるため、ロジスティック回帰を使用することにしました。7つの独立変数(3つの連続変数と4つの名義変数)があります。1つのガイドラインでは、各予測変数/独立変数について10のケースが必要であることを示唆しています(Agresti、2007)。このガイドラインに基づいて、ロジスティック回帰を実行しても問題ないと思います。 私は正しいですか?そうでない場合は、独立変数の数を決定する方法を教えてください?

9
ロジスティック回帰ベースのモデルの精度を測定する
トレーニング済みのロジスティック回帰モデルをテストデータセットに適用しています。従属変数はバイナリ(ブール)です。テストデータセットの各サンプルに対して、ロジスティック回帰モデルを適用して、従属変数が真になる確率を生成します。次に、実際の値が真か偽かを記録します。線形回帰モデルのように、または調整済み数値を計算しようとしています。R 2R2R2R^2R2R2R^2 これにより、テストセット内の各サンプルの記録が得られます。 prob_value_is_true acutal_value .34 0 .45 1 .11 0 .84 0 .... .... モデルの精度をテストする方法を疑問に思っています。私の最初の試みは、分割表を使用して「prob_value_is_true> 0.80の場合、実際の値が真であると推測する」と言い、正しい分類と誤った分類の比率を測定することでした。しかし、私はそれが好きではありません。なぜなら、モデル全体およびすべてのprob_value_is_true値の精度ではなく、0.80を境界として評価しているように感じるからです。 次に、例として、prob_value_is_trueの各離散値を見てみました。prob_value_is_true= 0.34のすべてのサンプルを見て、実際の値が真であるサンプルの%を測定しました(この場合、サンプルの%それは本当でした= 34%)。の各離散値での差を合計することにより、モデル精度スコアを作成できますprob_value_is_true。しかし、サンプルサイズは、特に極値(0%または100%に近づいている)にとって大きな懸念事項であり、実際の値の平均は正確ではないため、モデルの精度を測定するためにそれらを使用することは適切ではないようです。 十分なサンプルサイズ(0-.25、.25-.50、.50-.75、.75-1.0)を確保するために巨大な範囲を作成しようとしましたが、実際の値のその%の「良さ」を測定する方法は私を困らせます。prob_value_is_true0.25から0.50の間にあるすべてのサンプルの平均acutal_valueが0.45であるとします。範囲内にあるので良いですか?37.5%(範囲の中心)に近くないので悪いですか? だから私は簡単な質問に思えるかもしれませんが、誰かがロジスティック回帰モデルの統計的確度を計算するためのリソースや方法を教えてくれることを望んでいます。

3
Rのpolr関数からの出力を理解する方法(順序付きロジスティック回帰)
私はRを初めて使い、ロジスティック回帰を注文しましたpolr。 polr(ロジスティックまたはプロビット回帰モデルを順序付けられた因子応答に適合させる)のヘルプページの下部にある「例」セクションには、 options(contrasts = c("contr.treatment", "contr.poly")) house.plr <- polr(Sat ~ Infl + Type + Cont, weights = Freq, data = housing) pr <- profile(house.plr) plot(pr) pairs(pr) どんな情報がpr含まれていますか?プロファイルのヘルプページは一般的なものであり、polrに関するガイダンスはありません。 何がplot(pr)表示されていますか?6つのグラフが表示されます。ラベルはインジケータ変数です(順序値のインジケータである入力変数のように見えます)が、それぞれに数値のX軸があります。その場合、Y軸は「タウ」であり、これはまったく説明されていません。 何がpairs(pr)表示されていますか?入力変数の各ペアのプロットのように見えますが、ここでもX軸またはY軸の説明はありません。 モデルが適切に適合したかどうかをどのように理解できますか? summary(house.plr)は、Residual Deviance 3479.149と3495.149のAIC(赤池情報量規準?)を示しています。いいですか?それらが相対的な尺度としてのみ有用な場合(つまり、別のモデルの適合と比較する場合)、優れた絶対尺度とは何ですか?残差はほぼカイ二乗分布ですか?元のデータまたは相互検証で「正しく予測された%」を使用できますか?それを行う最も簡単な方法は何ですか? anovaこのモデルにどのように適用して解釈しますか?ドキュメントには、「predict、summary、vcov、anovaなど、標準のモデル適合関数のメソッドがあります」と書かれています。ただし、実行anova(house.plr)するとanova is not implemented for a single "polr" object 各係数のt値をどのように解釈しますか?一部のモデル近似とは異なり、ここにはP値はありません。 これは多くの質問であることに気づきましたが、7つの異なる質問ではなく、1つのバンドル(「これをどのように使用しますか?」)として質問することは理にかなっています。どんな情報も感謝します。
26 r  logistic 

2
ロジット値は実際にはどういう意味ですか?
多くの場合、0から1の間の数字を出すロジットモデルがありますが、これをどのように解釈できますか? 0.20のロジットの場合を考えてみましょう ケースがグループBとグループAに属する可能性が20%あると断言できますか? それはロジット値を解釈する正しい方法ですか?

2
Rの尤度比検定
次のように、いくつかの独立変数に対して単変量ロジスティック回帰を行うと仮定します。 mod.a <- glm(x ~ a, data=z, family=binominal("logistic")) mod.b <- glm(x ~ b, data=z, family=binominal("logistic")) このコマンドにより、モデルがnullモデルよりも優れているかどうかを確認するために、モデルの比較(尤度比検定)を行いました。 1-pchisq(mod.a$null.deviance-mod.a$deviance, mod.a$df.null-mod.a$df.residual) 次に、すべての変数を含む別のモデルを作成しました mod.c <- glm(x ~ a+b, data=z, family=binomial("logistic")) 変数が多変量モデルで統計的に有意であるかどうかを確認するために、lrtest次のコマンドを使用しましたepicalc lrtest(mod.c,mod.a) ### see if variable b is statistically significant after adjustment of a lrtest(mod.c,mod.b) ### see if variable a is statistically significant after …
25 r  logistic  diagnostic 

2
ロジスティック回帰の背後にある直感
最近、機械学習の勉強を始めましたが、ロジスティック回帰の背後にある直感を理解することができませんでした。 以下は、私が理解しているロジスティック回帰についての事実です。 仮説の基礎として、シグモイド関数を使用します。なぜそれが正しい選択なのか理解していますが、なぜそれが私が理解できない唯一の選択なのかを理解しています。仮説は、適切な出力である確率を表す111、それゆえ私たちの関数のドメインがあるべき[ 0 、1 ][0、1][0,1]、これはシグモイド関数の唯一の財産である私が有用であることが判明し、ここで適切な、しかし、多くの機能は、この特性を満たします。さらに、シグモイド関数には、この形式の導関数f(x)(1−f(x))f(x)(1−f(x))f(x)(1-f(x))、しかし、ロジスティック回帰ではこの特別な形式のユーティリティは見当たりません。 質問:どのようなシグモイド関数についてとても特別な、なぜ私たちは、ドメインと他の機能を使用することはできません?[0,1][0,1][0,1] コスト関数は、2つのパラメータで構成さであれば、Y = 1 、C O S T(時間θ(X )、Y )= - ログ(1 - 時間θ(X ))であれば、Y =をCost(hθ(x),y)=−log(hθ(x))Cost(hθ(x),y)=−log⁡(hθ(x)){\rm Cost}(h_{\theta}(x),y)=-\log(h_{\theta}(x))y=1,Cost(hθ(x),y)=−log(1−hθ(x))y=1,Cost(hθ(x),y)=−log⁡(1−hθ(x))y=1, {\rm Cost}(h_{\theta}(x),y)=-\log(1-h_{\theta}(x))。上記と同じように、なぜそれが正しいのか理解していますが、なぜそれが唯一の形式なのですか?例えば、なぜできませんでした | 時間θ (X ) - Y | コスト関数の良い選択ですか?y=0y=0y=0|hθ(x)−y||hθ(x)−y||h_{\theta(x)}-y| 質問:上記の形式の費用関数について何が特別なのか。なぜ別のフォームを使用できないのですか? ロジスティック回帰の理解を共有していただければ幸いです。

3
カテゴリー変数を使用したロジット回帰の相互作用項の解釈
私は、回答者が4つのグループのいずれかにランダムに割り当てられた調査実験のデータを持っています。 > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 3つの治療グループは適用される刺激がわずかに異なりますが、私が気にする主な違いはコントロールと治療グループの間です。そこで、ダミー変数を定義しましたControl: > summary(df$Control) TRUE FALSE 59 191 調査では、回答者は(特に)次の2つのうちどちらを優先するかを選択するように求められました。 > summary(df$Prefer) A B NA's 152 93 5 次に、治療グループによって決定されたいくつかの刺激を受けた後(対照グループの場合は刺激なし)、回答者は同じ2つのことから選択するように求められました。 > summary(df$Choice) A B 149 101 3つの治療グループのうちの1つに属していることが、この最後の質問で回答者が行った選択に影響を与えたかどうかを知りたいです。私の仮説は、治療を受けた回答者が治療するよりAも選択する可能性が高いということですB。 カテゴリデータを使用していることを考えると、ロジット回帰を使用することにしました(それが間違っていると思われる場合はお気軽にご連絡ください)。回答者はランダムに割り当てられたため、他の変数(人口統計など)を必ずしも制御する必要はないという印象を受けているため、この質問ではそれらを省略しました。私の最初のモデルは単純に次のものでした: > x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit")) > summary(x0) Call: glm(formula …

3
ロジスティック回帰の評価とHosmer-Lemeshow適合度の解釈
誰もが知っているように、ロジスティック回帰モデルを評価するには2つの方法があり、それらは非常に異なることをテストしています 予測力: 独立変数に基づいて従属変数を予測できる程度を測定する統計を取得します。よく知られたPseudo R ^ 2はMcFadden(1974)とCox and Snell(1989)です。 適合度の統計 このテストは、モデルをより複雑にすることでさらに改善できるかどうかを判断します。これは、実際には非線形性または相互作用があるかどうかをテストすることです。 私のモデルに両方のテストを実装しましたが、 すでに2次および相互作用が追加されています。 >summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = binomial()) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.955431 8.838584 …


3
結果が分数(2つのカウントの比率)の場合、Rでロジスティック回帰を行う方法は?
私は次の生物学的実験がある論文をレビューしています。デバイスを使用して、細胞をさまざまな量の流体せん断応力にさらします。より大きなせん断応力がセルに適用されると、より多くのセルが基板から剥離し始めます。せん断応力の各レベルで、付着したままの細胞をカウントします。また、最初に付着した細胞の総数を知っているため、部分的な付着(または剥離)を計算できます。 付着率とせん断応力をプロットすると、結果はロジスティック曲線になります。理論的には、個々のセルはそれぞれ1つの観測ですが、明らかに数千または数万のセルがあるため、通常の方法(各行が観測)でセットアップされた場合、データセットは巨大になります。 ですから、当然、私の質問(タイトルで述べられているように)は今では意味があります。DVとして分数の結果を使用してロジスティック回帰を行うにはどうすればよいですか?glmで実行できる自動変換はありますか? 同じ線に沿って、潜在的に3つ以上の(分数の)測定がある場合、多項ロジスティック回帰の場合、これをどのように行いますか?



1
ロジスティック回帰のサンプリングは、1と0の実際の比率を反映すべきですか?
樹木の特性(feの高さ)に基づいて、樹木に生息するいくつかの動物種の発生確率を推定できるロジスティック回帰モデルを作成するとします。いつものように、私の時間とお金は限られているため、限られたサンプルサイズのみを収集することができます。 次の質問があります: サンプルの1と0の比率は、1と0の真の比率を反映すべきですか?(少なくともおよそ)バランスのとれたサンプル(1と0の等しい数)でロジスティック回帰モデルを実行するのが一般的な方法であることに気付きました-しかし、そのようなモデルはシュールに高い発生確率を与えます-そうですか? ** 1と0の真の比率を反映しないモデルが「間違っている」という概念をサポートするために使用できる記事/教科書はありますか?** 最後に、1:1サンプリングを実行し、その後、今井らによるとタウでモデルを修正することは可能ですか?2007年? 今井浩介、ゲイリー・キング、オリビア・ラウ。2007.「relogit:Rare Events Logistic Regression for Dichotomous Dependent Variables」、今井幸介、Gary King、およびOlivia Lau、「Zelig:Everyone's Statistical Software」、http://gking.harvard.edu/zelig。 ドットは木を表します(赤=占有、灰色=占有なし)。占領されたすべての樹木を100%の精度(1)で識別できますが、森林内のすべての木を測定することはできません。モデルは、サンプリング戦略(比率)ごとに異なります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.