タグ付けされた質問 「logistic」

一般に、ロジスティック関数を使用する統計的手順、最も一般的にはさまざまな形式のロジスティック回帰を指します。

2
ロジスティック回帰にiidの仮定はありますか?
ロジスティック回帰の応答変数にiidの仮定はありますか? たとえば、データポイントがあるとします。応答は、ベルヌーイ分布から来ているようです。したがって、異なるパラメーター持つベルヌーイ分布を持つ必要があります。100010001000YiYiY_ipi=logit(β0+β1xi)pi=logit(β0+β1xi)p_i=\text{logit}(\beta_0+\beta_1 x_i)100010001000ppp したがって、それらは「独立」していますが、「同一」ではありません。 私は正しいですか? PS。「機械学習」の文献からロジスティック回帰を学びました。そこでは、目的関数を最適化し、仮定についてあまり語ることなく、データのテストに適しているかどうかを確認します。 私の質問は、この投稿で始まりました。一般化線形モデルのリンク関数の理解ここで、統計的仮定の詳細を調べます。

1
順序ロジスティック回帰のプロットと解釈
1(簡単ではない)から5(非常に簡単)の範囲の順序依存変数easinessがあります。独立因子の値の増加は、容易性評価の増加に関連しています。 私の独立変数のうちの2つ(condAおよびcondB)はカテゴリカルであり、それぞれ2つのレベルがあり、2(abilityA、abilityB)は連続しています。 私が使用している序それは私がであると信じるものを使用してR、パッケージを ロジット(p (Y⩽ グラム))= lnp (Y⩽ グラム)p (Y> g)= β0g− (β1バツ1+ ⋯ + βpバツp)(g= 1 、… 、k − 1 )ロジット(p(Y⩽g))=ln⁡p(Y⩽g)p(Y>g)=β0g−(β1バツ1+⋯+βpバツp)(g=1、…、k−1)\text{logit}(p(Y \leqslant g)) = \ln \frac{p(Y \leqslant g)}{p(Y > g)} = \beta_{0_g} - (\beta_{1} X_{1} + \dots + \beta_{p} X_{p}) \quad(g = 1, \ldots, k-1) (@caracalの回答はこちら) 私はこれを独自に学習してきましたが、まだ苦労しているので、可能な限りの助けをお願いします。通常のパッケージに付属するチュートリアルに加えて、次の情報も役立つことがわかりました。 順序ロジスティック回帰の解釈 順序ロジスティック回帰の負の係数 …

3
ロジスティック回帰の係数の標準誤差を計算する方法
Pythonのscikit-learnを使用して、ロジスティック回帰のトレーニングとテストを行っています。 scikit-learnは、独立変数の回帰係数を返しますが、係数の標準誤差は提供しません。各係数のWald統計を計算し、それらの係数を相互に比較するには、これらの標準誤差が必要です。 ロジスティック回帰の係数の標準誤差を計算する方法の1つの説明を見つけました(ここ)が、従うのはやや困難です。 これらの標準エラーを計算する方法の簡単な簡潔な説明を知っている場合、および/またはそれを私に提供できる場合は、本当に感謝しています!特定のコードを意味するわけではありませんが(役立つコードは自由に投稿してください)、むしろ手順のアルゴリズム的な説明です。

2
GLMNETからの変数の重要性
機能を選択し、予測モデルをバイナリターゲットに適合させる方法として投げ縄を使用することを検討しています。以下は、正規化されたロジスティック回帰でメソッドを試すために遊んでいたコードです。 私の質問は、「重要な」変数のグループを取得することですが、それぞれの相対的な重要性を推定するためにこれらを順序付けすることはできますか?この目的のために係数を絶対値でランク付けすることはできますか(coef関数を介して元の変数スケールで表示されることを理解しています)?その場合、その方法(xとyの標準偏差を使用)回帰係数を標準化します。 サンプルコード: library(glmnet) #data comes from #http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic) datasetTest <- read.csv('C:/Documents and Settings/E997608/Desktop/wdbc.data.txt',head=FALSE) #appears to use the first level as the target success datasetTest$V2<-as.factor(ifelse(as.character(datasetTest$V2)=="M","0","1")) #cross validation to find optimal lambda #using the lasso because alpha=1 cv.result<-cv.glmnet( x=as.matrix(dataset[,3:ncol(datasetTest)]), y=datasetTest[,2], family="binomial", nfolds=10, type.measure="deviance", alpha=1 ) #values of lambda used histogram(cv.result$lambda) #plot of …


2
ロジスティック回帰とt検定の力はどのように比較されますか?
ロジスティック回帰とt検定の力は同等ですか?その場合、それらは「データ密度が同等」である必要があります。つまり、固定されたアルファが.05の場合、同じ数の基礎となる観測値が同じパワーを生成します。次の2つのケースを検討してください。 [パラメトリックt検定]:二項観測から30の引き分けが行われ、結果の値が平均化されます。これは、グループA(発生の二項分布Prが.70である)に対して30回、グループB(発生の二項分布Prが.75である)で30回行われます。これにより、グループごとに30の平均が得られ、2項分布からの1,800の描画の要約を表します。58df t検定を実行して、平均を比較します。 [ロジスティック回帰]:ロジスティック回帰は、グループメンバーシップと1,800の各ドローを表すダミーのコード化された勾配で実行されます。 私の質問には2つの部分があります。 アルファ値が.05の場合、これらの方法論の力は同じですか、それとも異なりますか?どうして?どうすればそれを証明できますか? 質問1の答えは、t検定に入るサンプルサイズ、t検定の各グループのサンプルサイズ、基礎となる二項確率、またはその他の要因に敏感ですか?もしそうなら、どのようにパワーが実際に異なり、どのような変化がパワーのどのような変化を引き起こすかを(シミュレーションなしで)知ることができますか?または、シミュレーションを使用して問題を解決するRコードを作成します。

1
なぜロジスティック回帰最適化にニュートンの方法を使用するのが反復再加重最小二乗と呼ばれるのですか?
なぜロジスティック回帰最適化にニュートンの方法を使用するのが反復再加重最小二乗と呼ばれるのですか? ロジスティック損失と最小二乗損失は完全に異なるため、私には明らかではないようです。

3
順序カテゴリ変数を独立変数として処理する方法
ロジットモデルを使用しています。私の従属変数はバイナリです。ただし、カテゴリ変数であり、応答を含む独立変数があります1.very good, 2.good, 3.average, 4.poor and 5.very poor。したがって、それは序数です(「定量的カテゴリ」)。モデルでこれを処理する方法がわかりません。を使用していgretlます。 [@ttnphnsからの注記:モデルはロジットであるとの質問がありますが(依存関係はカテゴリカルであるため)、重要な問題-順序独立変数-は基本的に類似しており、依存カテゴリカルまたは定量的です。したがって、この問題は、たとえばロジスティック回帰または他のロジットモデルと同様に、線形回帰にも同様に関連しています。]

2
Rを使用してロジスティック回帰の係数を計算する
多重線形回帰では、次の式で係数を見つけることができます。 b=(X′X)−1(X′)Yb=(X′X)−1(X′)Yb = (X'X)^{-1}(X')Y beta = solve(t(X) %*% X) %*% (t(X) %*% Y) ; beta 例えば: > y <- c(9.3, 4.8, 8.9, 6.5, 4.2, 6.2, 7.4, 6, 7.6, 6.1) > x0 <- c(1,1,1,1,1,1,1,1,1,1) > x1 <- c(100,50,100,100,50,80,75,65,90,90) > x2 <- c(4,3,4,2,2,2,3,4,3,2) > Y <- as.matrix(y) > X <- as.matrix(cbind(x0,x1,x2)) > …

2
ロジスティック回帰から係数を解釈する方法は?
次の確率関数があります。 Prob=11+e−zProb=11+e−z\text{Prob} = \frac{1}{1 + e^{-z}} どこ z=B0+B1X1+⋯+BnXn.z=B0+B1X1+⋯+BnXn.z = B_0 + B_1X_1 + \dots + B_nX_n. 私のモデルは次のように見えます Pr(Y=1)=11+exp(−[−3.92+0.014×(gender)])Pr(Y=1)=11+exp⁡(−[−3.92+0.014×(gender)])\Pr(Y=1) = \frac{1}{1 + \exp\left(-[-3.92 + 0.014\times(\text{gender})]\right)} インターセプト(3.92)の意味は理解していますが、0.014の解釈方法は確実です。これらは今でもオッズ、オッズ比の対数ですか、それとも増分オッズの変化が性別であるため、女性は男性よりも0.014勝つ可能性が高いと断言できますか?基本的に、0.014を解釈するにはどうすればよいですか? 基本的に、確率関数を取得して、実際にJavaで記述している特定のプログラムに実装したいのですが、Javaで実装するために関数を正しく理解しているかどうかはわかりません。 Javaコードの例: double p = 1d / (1d + Math.pow(2.718d, -1d * (-3.92d + 0.014d * bid)));

2
Rで数値/カテゴリ値の両方で順序ロジスティック回帰分析を実行するにはどうすればよいですか?
基本データ:評価「1,1」「良い」「2」「中間」または「3」「悪い」でマークされた人が約1,000人あります-これらは将来の人のために予測しようとしている値です。それに加えて、性別(カテゴリ:M / F)、年齢(数値:17-80)、および人種(カテゴリ:黒/白人/ラテン系)の人口統計情報があります。 主に4つの質問があります。 最初に、上記のデータセットを重回帰分析として実行しようとしました。しかし、私は最近、私の従属変数が順序変数であり、連続変数ではないため、このようなことには順序ロジスティック回帰を使用する必要があることを学びました。最初はのようなものを使用していましたがmod <- lm(assessment ~ age + gender + race, data = dataset)、誰かが私を正しい方向に向けられますか? そこから、私が快適だと思う係数を取得すると仮定して、x1、x2などの数値のみをプラグインする方法を理解します-しかし、たとえば、複数の応答がある場合、レースにどのように対処しますか:黒/白人/ラテン系?それで、コーカサス係数が0.289で、予測しようとしている人がコーカサス人であることがわかった場合、値は数値ではないので、どのように元に戻すのですか? レース用、性別用など、欠落しているランダムな値もあります。これが歪んでいないことを確認するために、さらに何かをする必要がありますか?(データセットがR-StudioにロードされNA、欠落データがとしてロードされると、Rは次のよう(162 observations deleted due to missingness)になりますが、空白としてロードされても、何もしません。) これがすべてうまくいき、性別、年齢、人種を予測したい新しいデータがあると仮定します。新しい係数を持つ私の式が判明したとしても、Rでそれをすべて実行する簡単な方法がありますか?手動で行うのではなく?(この質問がここで適切でない場合は、Rフォーラムに戻すことができます。)

2
変数を分類すると、重要ではないものから重要なものに変わります
多変量ロジスティック回帰モデルでは重要ではないことが判明した数値変数があります。ただし、グループに分類すると、突然重要になります。これは私には非常に直観に反しています。変数を分類するとき、いくつかの情報を放棄します。 どうすればいいの?

1
Cox比例ハザードモデルのロジスティック回帰よりもp値が高いことが多いのはなぜですか?
コックス比例ハザードモデルについて学んでいます。私は、ロジスティック回帰モデルを当てはめる多くの経験を持っており、そのビルド直感に私がモデルを比較してきた使用してフィットcoxphロジスティック回帰モデルを使用してフィットとR「生存」からglmとfamily="binomial"。 コードを実行した場合: library(survival) s = Surv(time=lung$time, event=lung$status - 1) summary(coxph(s ~ age, data=lung)) summary(glm(status-1 ~ age, data=lung, family="binomial")) 年齢がそれぞれ0.0419と0.0254のp値を取得します。同様に、年齢を問わず性別を予測因子として使用する場合。 モデルをフィッティングする際に経過時間を考慮すると、単に死亡をバイナリの結果として扱うよりも統計的な力が得られるのに対し、p値は統計的な力の低い人と一致すると思われるため、この不可解なことに気付きます。ここで何が起こっていますか?

5
ロジスティック回帰で最も重要な機能を理解する
私はデータに対して非常に正確なロジスティック回帰分類器を作成しました。今、私はなぜそれがとてもうまく機能しているのかをよりよく理解したいと思います。具体的には、どの機能が最大の貢献を果たしているか(どの機能が最も重要か)をランク付けし、理想的には、各機能がモデル全体(またはこのようなもの)の精度にどれだけ貢献しているかを定量化します。どうすればいいですか? 私の最初の考えは、係数に基づいてそれらをランク付けすることでしたが、これは正しくないと思われます。同様に有用な2つの機能がありますが、最初の機能の広がりが2番目の機能の10倍であれば、1番目の機能は2番目の機能よりも低い係数を受け取ると思います。機能の重要性を評価するより合理的な方法はありますか? 機能の小さな変化が結果の確率にどの程度影響するかを理解しようとしているわけではないことに注意してください。むしろ、分類器を正確にするという点で、各機能の重要性を理解しようとしています。また、私の目標は、特徴選択を実行したり、特徴の少ないモデルを構築したりすることではなく、学習したモデルに「説明可能性」を提供することです。したがって、分類子は単なる不透明なブラックボックスではありません。

3
Hosmerらを使用したモデルの構築と選択 2013. Rでロジスティック回帰を適用
これはStackExchangeでの最初の投稿ですが、かなり以前からリソースとして使用してきました。適切な形式を使用して適切な編集を行うために最善を尽くします。また、これは複数の部分からなる質問です。質問を複数の異なる投稿に分割すべきか、それとも1つの投稿に分割すべきかはわかりませんでした。質問はすべて同じテキストの1つのセクションからのものであるため、1つの質問として投稿する方が関連性が高いと考えました。 私は修士論文のために大型哺乳類種の生息地利用を研究しています。このプロジェクトの目標は、森林管理者(統計学者ではない可能性が高い)に、この種に関して管理する土地の生息地の品質を評価するための実用的なフレームワークを提供することです。この動物は比較的とらえどころのない、生息地の専門家であり、通常は遠隔地に位置しています。特に季節ごとに、種の分布に関する研究は比較的少ない。数匹の動物に1年間GPSカラーを取り付けました。100の場所(50夏と50冬)は、各動物のGPSカラーデータからランダムに選択されました。さらに、「利用可能」または「擬似欠席」の場所として機能するように、各動物のホーム範囲内で50ポイントがランダムに生成されました。 各場所について、フィールドでいくつかの生息地変数(樹木直径、水平カバー、粗い木質の破片など)がサンプリングされ、いくつかがGISを介してリモートでサンプリングされました(標高、道路までの距離、凹凸など)。変数は、7レベルの1つのカテゴリ変数を除き、ほとんど連続しています。 私の目標は、回帰モデリングを使用してリソース選択関数(RSF)を構築し、リソースユニットの使用の相対確率をモデル化することです。動物の個体群(デザインタイプI)と個々の動物(デザインタイプIII)の季節(冬と夏)RSFを構築したいと思います。 Rを使用して統計分析を実行しています。 プライマリテキスト私が使用しているは... 「Hosmer、DW、Lemeshow、S。、およびSturdivant、RX2013。AppliedLogisticRegression。Wiley、Chicester」。 Hosmer et al。の例の大部分。STATA を使用し、Rで参照するために次の2つのテキストも使用しています。 「クローリー、MJ2005。統計:イギリス、ウェストサセックス州チチェスターのRJワイリーを使用した紹介。」 「植物、RE2012。R.CRC Pressを使用した生態学および農業における空間データ分析、ロンドン、GBR。」 私は現在、Hosmer et al。の第4章の手順に従っています。「共変量の目的の選択」のために、プロセスについていくつか質問があります。私は私の質問に役立つように、以下のテキストの最初のいくつかのステップを概説しました。 ステップ1:各独立変数の単変数分析(単変数ロジスティック回帰を使用しました)。単一変数テストのp値が0.25未満の変数は、最初の多変数モデルに含める必要があります。 ステップ2:ステップ1で含めるために特定されたすべての共変量を含む多変数モデルを近似し、そのWald統計量のp値を使用して各共変量の重要性を評価します。従来の有意水準では寄与しない変数は削除し、新しいモデルを適合させる必要があります。部分尤度比検定を使用して、新しい小さなモデルを古い大きなモデルと比較する必要があります。 ステップ3:小さいモデルの推定係数の値を、大きいモデルのそれぞれの値と比較します。モデルに残っている変数の効果の必要な調整を提供するという意味で重要であるため、係数が大きさで著しく変化した変数はモデルに追加し直す必要があります。すべての重要な変数がモデルに含まれ、除外された変数が臨床的および/または統計的に重要でないと思われるまで、ステップ2および3を繰り返します。ホスマー等。係数の大きさの変化の尺度として「delta-beta-hat-percent」を使用します。彼らは、デルタベータハットパーセントが20%を超える大きな変化を示唆しています。ホスマー等。delta-beta-hat-percentを次のように 定義しますΔのβ^%= 100 θ^1- β^1β^1Δβ^%=100θ^1−β^1β^1\Delta\hat{\beta}\%=100\frac{\hat{\theta}_{1}-\hat{\beta}_{1}}{\hat{\beta}_{1}}。ここで、は小さなモデルの係数で、は大きなモデルの係数です。 β 1θ^1θ^1\hat{\theta}_{1}β^1β^1\hat{\beta}_{1} ステップ4:ステップ1で選択されていない各変数をステップ3の最後に取得したモデルに一度に1つずつ追加し、カテゴリーの場合はWald統計p値または部分尤度比検定のいずれかでその有意性を確認します2レベル以上の変数。このステップは、単独では結果にあまり関係しないが、他の変数の存在下で重要な貢献をする変数を識別するために不可欠です。ステップ4の最後のモデルを、予備的な主効果モデルと呼びます。 ステップ5〜7:ここまで進んでいません。そのため、これらのステップは今のところ省略するか、別の質問のために保存します。 私の質問: ステップ2では、従来の重要度レベルとして適切なものは何でしょうか。p値が<0.05の場合、<。25のように大きくなりますか? 再びステップ2で、部分尤度テストに使用していたRコードが正しいことを確認し、結果を正しく解釈していることを確認します。ここに私がやっていることがあります... anova(smallmodel,largemodel,test='Chisq')p値が有意(<0.05)である場合、変数をモデルに追加し、有意でない場合は削除を続行しますか? ステップ3では、delta-beta-hat-percentに関する質問と、除外された変数をモデルに戻すのが適切な場合について質問があります。たとえば、モデルから1つの変数を除外すると、異なる変数のが20%以上変化します。ただし、 20%を超える変更がある変数は重要ではないようで、手順2および3の次の数サイクルでモデルから除外されるように見えます。両方の変数をモデルに含めるか除外するかを決定しますか?最下位の変数を最初に削除することにより、一度に1つの変数を除外することで進めているため、順序が狂った変数を除外することにheしています。Δ β%Δのβ^%Δβ^%\Delta\hat{\beta}\%Δのβ^%Δβ^%\Delta\hat{\beta}\% 最後に、計算に使用するコードが正しいことを確認します。私は次のコードを使用しています。私のためにこれを行うパッケージまたはそれを行うより簡単な方法がある場合、私は提案を受け入れます。 Δのβ^%Δβ^%\Delta\hat{\beta}\% 100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.