タグ付けされた質問 「logistic」

一般に、ロジスティック関数を使用する統計的手順、最も一般的にはさまざまな形式のロジスティック回帰を指します。

1
共変量に欠損データがある場合、GEE /ロジスティックモデルの適合をどのように評価できますか?
2つの一般化推定方程式(GEE)モデルを自分のデータに当てはめました。 1)モデル1:結果は縦方向のYes / No変数(A)(1、2、3、4、5年)であり、1、2、3、4、5年の縦方向の連続予測子(B)があります。 2)モデル2:結果は同じ長期的はい/いいえ変数(A)ですが、予測子は1年目の値に固定されています(つまり、時間不変に強制されています(B))。 さまざまなケースのいくつかの時点で縦方向予測子の測定値が欠落しているため、モデル2のデータポイントの数はモデル1よりも多くなります。 2つのモデルのオッズ比、p値、フィットを有効に比較できる方法について知りたいです。例: 予測子BのORがモデル1でより大きい場合、AとBの関連付けがモデル1でより強いと正当に言えますか? どちらが自分のデータにより適したモデルであるかをどのように評価できますか?観測数が同じでない場合、QIC / AIC疑似R二乗をモデル間で比較してはならないと私は考えていますか? どんな助けでも大歓迎です。
9 logistic  gee 

4
2 X 3テーブルで複数の事後カイ2乗検定を実行する方法
私のデータセットは、沿岸、ミッドチャネル、オフショアの3つのサイトタイプでの生物の全死亡率または生存率で構成されています。下の表の数字は、サイトの数を表しています。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100%の死亡率が発生したサイトの数がサイトのタイプに基づいて重要かどうかを知りたいです。2 x 3カイ2乗を実行すると、重要な結果が得られます。実行できる事後的なペアワイズ比較はありますか、または実際にロジスティックANOVAまたは二項分布の回帰を使用する必要がありますか?ありがとう!

1
代替案とロジスティック回帰の間の実際的な&解釈の違いは何ですか?
Rのロジスティック回帰の代替案に関する最近の質問は、randomForest、gbm、rpart、bayesglm、および一般化された加法モデルを含むさまざまな回答をもたらしました。これらの方法とロジスティック回帰の実際的および解釈上の違いは何ですか?彼らはロジスティック回帰に関連してどのような仮定をしますか(しませんか)?仮説検定に適していますか?等。

1
ロジスティック回帰のまれなイベントの結果は何ですか?
サンプルサイズは、あらゆる統計的手法で検出力に影響することを知っています。各予測子に対して回帰が必要とするサンプル数の目安があります。 また、ロジスティック回帰の従属変数の各カテゴリのサンプル数が重要であるとよく耳にします。どうしてこれなの? カテゴリの1つのサンプル数が少ない(まれなイベント)場合、ロジスティック回帰モデルに実際にどのような影響がありますか? 従属変数の各レベルの予測子の数とサンプル数の両方を組み込んだ経験則はありますか?

2
IRTモデルとロジスティック回帰モデルの類似点と相違点
これらの両方のような基本的な類似性にもかかわらず、応答変数を直接モデル化するのではなく、成功の確率をモデル化します。これらのモデル間の相違点と類似点を指摘する、より信頼できる答えがあると思います。 1つの違いは、ロジスティックでは、異なるタイプと異なる数の独立変数を使用できることです。一方、IRTモデルでは、能力である独立変数は1つだけです。 もう1つの類似性:ロジスティックのパラメーターを推定するには、最尤法を使用します。IRTでは、パラメーター推定手法の1つとして限界最尤も使用します。 では、これら2つのモデルの統計的/数学的な違いを誰かに説明していただけますか?

2
ロジスティック回帰で切片と係数を手動で計算する方法
私は現在、ロジスティック回帰について研究しています。しかし、切片()と係数()の計算に行き詰まっています。インターネットで探していましたが、Microsoft ExcelまたはRの組み込み関数を使用したチュートリアルしか取得していません。MaximumLikelihoodで解決できると聞いたのですが、使い方がわからないので統計的背景がない。係数を手動で計算するための簡単な説明とシミュレーションを誰かに教えてもらえますか?β0β0\beta_0β1β1\beta_1

2
ロジスティック回帰で対数損失の代わりにMSEを使用する
ロジスティック回帰の損失関数(通常は対数尤度)をMSEに置き換えます。つまり、対数オッズ比がパラメーターの線形関数であっても、推定確率と結果(0/1としてコード化)の差の2乗の合計を最小化します。 ログp1 − p= β0+ β1バツ1+ 。。。+ βんバツんログ⁡p1−p=β0+β1バツ1+。。。+βんバツん\log \frac p{1-p} = \beta_0 + \beta_1x_1 + ... +\beta_nx_n 代わりにを最小化し。∑ (y私− p私)2Σ(y私−p私)2\sum(y_i - p_i)^2∑ [ y私ログp私+ (1 − y私)ログ(1 − p私)]Σ[y私ログ⁡p私+(1−y私)ログ⁡(1−p私)]\sum [y_i \log p_i + (1-y_i) \log (1-p_i)] もちろん、いくつかの仮定の下で対数尤度が理にかなっている理由は理解しています。しかし、通常は仮定が行われない機械学習で、MSEが完全に不合理である直感的な理由は何ですか?(またはMSEが意味をなす可能性のある状況はありますか?)

2
以前のクラスの確率分布をロジスティック回帰に組み込む
ロジスティック回帰やランダムフォレストなどの分類器に事前クラス確率分布を組み込む方法についての記事や講義が見つからないことに驚いています。 だから私の質問は: 以前のクラスの確率分布をロジスティック回帰またはランダムフォレストに組み込むにはどうすればよいですか? 以前のクラス確率分布を組み込むことは、ベイジアン機械を使用する必要があることを意味しますか? 私はクラスaがクラスbよりもはるかに可能性が高いことを知っている分類タスクに直面しています。 アドホックな解決策は、クラスAのサンプルをトレーニングセットに含めるだけですが、これに関する理論的な結果はありますか? 私が考えたのは、決定しきい値を0.5からこの以前の不均衡を考慮した値に変更することでした。しかし、それが理論的に理にかなっているのかどうかさえわかりません。決定を下す準​​備ができた時点で、すでにすべての特徴値を調べているため、事前確率ではなくクラスの条件付き確率を気にする必要があるためです。

1
SVMとヒンジ損失の関係は何ですか?
私の同僚と私は、ロジスティック回帰とSVMの違いに頭を抱えようとしています。明らかに、それらは異なる目的関数を最適化しています。SVMは、ヒンジ損失を単に最適化する判別型分類器であると言うほど簡単ですか?それともそれよりも複雑ですか?サポートベクターはどのように機能しますか?スラック変数はどうですか?シグモイドアクティベーション関数を使用したディープニューラルネットワークを構築できないのに、ディープSVMを導入できないのはなぜですか?

2
与えられた入力ベクトルの予測に最も貢献した特徴を決定する正しい方法は何ですか?
バイナリ分類にロジスティック回帰を使用しています。私は大きなデータセットを持っています(非常に不均衡になる傾向があります:19:1)。したがって、scikit-learnを使用してLogisticRegression()、ラベル付けされたデータの80%をトレーニングしてから、残りの20%で検証しました(データが非常にアンバランスだったため、ROCの下の領域と精度の再現率を調べました。また、class_weight='auto')。 主な質問は次のとおりです:(を使用してpredict_proba())ラベルのない入力ベクトルの予測を生成し始めたら、どの機能がその特定の入力の予測に最も貢献したかをどのようにして知ることができますか?これは、ラベル付けされたトレーニングデータ(たとえば、係数の大きさ)に基づいてモデルに対して一般的に決定される「最も重要な機能」とは異なる可能性があると思います。 私は非常に基本的な考えを持っていました: 入力フィーチャ値とコンポーネント係数の絶対値のコンポーネントごとの積をとります。最も貢献する機能は、最大値を持つエントリに対応する機能です。 (1)を実行しますが、すべてにZスコアを使用します(トレーニングおよび入力機能)。一部の機能範囲が他の機能範囲と大きく異なる可能性があり、製品を購入しただけではこれをキャプチャできない可能性があることを心配したため、これは重要だと思いました。しかし、係数は範囲を反映するはずなので、おそらくこれは問題ではありません。 私はこれが初めてなので、どんな考えでも大歓迎です。ロジスティック回帰に固有の事柄(つまり、線形関数ではなくシグモイド)と、scikit-learnで特定のアクション(たとえば、変換)を実装する方法への参照は、実際に実際のデータでプロジェクトを行っているので非常にありがたいです。

3
ロジスティック回帰の従属変数と非線形関係を持つ変数を使用できますか?
従属変数がバイナリであり、値または取ることができるロジスティック回帰モデルを構築しているとしましょう。独立変数をすると、独立変数があります。レッツと言う独立変数番目、二変量解析ショーU字トレンド-すなわち、もしI群にビンの観測の各含有ほぼ等しい数および各ビンのための「不良率」を計算する- #観測Y = 0 /各ビンの総観測値-次に、U字型の曲線を取得します。000X 1は、xは2、。。。、x m m k x k 20111バツ1、x2、。。。、xメートルバツ1、バツ2、。。。、バツメートルx_1, x_2, ..., x_mメートルメートルmkkkバツkバツkx_k202020 私の質問は: ベータパラメーターを推定するときに、を入力として直接使用できますか?パラメータの推定で重大なエラーを引き起こす可能性がある統計的仮定に違反していますか?バツkバツkx_k この変数を変換(対数、平方、それ自身との積など)を通じて「線形化」する必要がありますか?

1
一般化線形モデル出力から方程式を見つける
特定の要因に基づいて結果の確率を生成し、その結果の曲線をプロットするとします。Rからその曲線の方程式を抽出する方法はありますか? > mod = glm(winner~our_bid, data=mydat, family=binomial(link="logit")) > summary(mod) Call: glm(formula = winner ~ our_bid, family = binomial(link = "logit"), data = mydat) Deviance Residuals: Min 1Q Median 3Q Max -0.7443 -0.6083 -0.5329 -0.4702 2.3518 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -9.781e-01 2.836e-02 -34.49 <2e-16 *** our_bid -2.050e-03 …

4
ロジスティック回帰の最小観測数?
3つの数値変数を使用してバイナリロジスティック回帰を実行しています。すべての入力変数がゼロの場合、確率はゼロになるはずなので、モデルの切片を抑制しています。 使用する必要がある観測の最小数はいくつですか?

4
分位点回帰は、分位点で変数が分割されたロジスティック回帰とどのように比較されますか?
少しググったけど、何も見つからなかった。 従属変数のq番目の分位点で分位点回帰を行うとします。 次に、DVをq番目の分位点で分割し、結果に0と1のラベルを付けます。次に、分類されたDVに対してロジスティック回帰を行います。 私はこれのモンテカルロ研究または他のものより好む理由を探しています。

3
logit-係数を確率として解釈する
重要な情報が不足しているようです。ロジスティック回帰の係数は、ロジットスケールと呼ばれるlog(odds)にあることを知っています。したがって、それらを解釈するためにexp(coef)採用され、オッズ比ORが得られます。 もし β1=0.012β1=0.012\beta_1 = 0.012 解釈は次のとおりです。共変量の1単位の増加 X1X1X_1、ログオッズ比は0.012です。これは、意味のある情報を提供しません。 べき乗により、共変量が1単位増加します。 X1X1X_1、オッズ比は1.012(exp(0.012)=1.012exp⁡(0.012)=1.012\exp(0.012)=1.012)、または Y=1Y=1Y=1 よりも1.012高い可能性があります Y=0Y=0Y=0。 ただし、係数はパーセンテージで表現したいと思います。GelmanとHillによると、回帰とマルチレベル/階層モデルを使用したデータ分析、111ページ: 係数βは累乗され、乗法効果として扱われます。」 したがって、β1= 0.012の場合、「予想される乗法的増加はexp(0.012)= 1.012、または1.2%の正の差... しかし、私のスクリプトによると ODDS=p1−pODDS=p1−p\text{ODDS} = \frac{p}{1-p} と逆ロジット式の状態 P=OR1+OR=1.0122.012=0.502P=OR1+OR=1.0122.012=0.502 P=\frac{OR}{1+OR}=\frac{1.012}{2.012}= 0.502 共変量が1単位増えると、Y = 1の確率が50%増えると解釈したくなります。これは間違っていると思いますが、理由はわかりません。 ロジット係数は確率でどのように解釈できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.