タグ付けされた質問 「logistic」

一般に、ロジスティック関数を使用する統計的手順、最も一般的にはさまざまな形式のロジスティック回帰を指します。


3
判別分析とロジスティック回帰
判別分析の長所をいくつか見つけましたが、それらについて質問があります。そう: クラスが十分に分離されている場合、ロジスティック回帰のパラメーター推定値は驚くほど不安定です。係数は無限大になる可能性があります。LDAはこの問題の影響を受けません。 特徴の数が少なく、予測子分布が 各クラスでほぼ正規の場合、線形判別モデルはロジスティック回帰モデルよりも安定しています。XXX 安定性とは何ですか、なぜそれが重要なのですか?(ロジスティック回帰がその仕事に適している場合、なぜ安定性を気にする必要があるのですか?) LDAは、データの低次元ビューも提供するため、3つ以上の応答クラスがある場合に人気があります。 私はそれを理解していません。LDAは低次元ビューをどのように提供しますか? もっと長所や短所を挙げられるなら、それはいいことです。

2
ランダム効果で順序ロジスティック回帰を使用する方法は?
私の研究では、いくつかのメトリックでワークロードを測定します。心拍変動(HRV)、皮膚電気活動(EDA)および主観的尺度(IWS)を使用。正規化後、IWSには3つの値があります。 ワークロードが通常よりも低い ワークロードは平均です ワークロードが通常よりも高くなっています。 生理学的測定が主観的な作業負荷をどれだけうまく予測できるかを見たい。 したがって、比率データを使用して順序値を予測したいと思います。によると:数値/カテゴリ値の両方でRで順序ロジスティック回帰分析を実行するにはどうすればよいですか?これは、MASS:polr関数を使用して簡単に実行できます。 ただし、被験者間差、性別、喫煙などのランダム効果も考慮したいと思います。このチュートリアルを見て、にランダム効果を追加する方法がわかりませんMASS:polr。代わりにlme4:glmerオプションがありますが、この関数はバイナリデータの予測のみを許可します。 順序ロジスティック回帰にランダム効果を追加することは可能ですか?

2
ロジスティック回帰は、従来の関数ではない曲線をどのように生成できますか?
ロジスティック回帰の機能がどのように機能するのか(または単に全体として機能するのか)について、根本的な混乱があると思います。 関数h(x)が画像の左側に見られる曲線を生成するのはどうですか? これは2つの変数のプロットですが、これら2つの変数(x1およびx2)も関数自体の引数です。1つの変数の標準関数が1つの出力にマッピングされることは知っていますが、この関数は明らかにそれを行っていません。 私の直感では、青/ピンクの曲線は実際にこのグラフにプロットされるのではなく、グラフの次の次元(3番目)の値にマップされる表現(円とX)です。これは推論に誤りがあり、何かが欠けているだけですか?洞察/直感に感謝します。

1
応答変数が0〜1の混合モデルを適合させる方法は?
私はlme4::glmer()、バイナリではなく、0と1の間の連続変数である従属変数を使用して、二項一般化混合モデル(GLMM)を近似しようとしています。この変数は確率と考えることができます。実際、それは人間の被験者によって報告された確率です(私は分析に役立つ実験で)。すなわち、それはだない「離散」割合が、連続変数。 私のglmer()予想通りの呼び出しは(下記参照)は動作しません。どうして?私に何ができる? 後で編集:以下の私の答えは、この質問の元のバージョンよりも一般的であるため、質問もより一般的なものに変更しました。 詳細 明らかに、バイナリDVだけでなく、0と1の間の連続DVにもロジスティック回帰を使用することが可能です。確かに、私が走るとき glm(reportedProbability ~ a + b + c, myData, family="binomial") 警告メッセージが表示されます Warning message: In eval(expr, envir, enclos) : non-integer #successes in a binomial glm! しかし、非常に合理的な適合(すべての要因はカテゴリであるため、モデル予測が被験者間平均に近いかどうか、およびそれらが近いかどうかを簡単に確認できます)。 ただし、実際に使用したいのは glmer(reportedProbability ~ a + b + c + (1 | subject), myData, family="binomial") それは私に同一の警告を与え、モデルを返しますが、このモデルは明らかに非常にオフです。固定効果の推定値は、glm()対象平均値と対象平均値から非常に離れています。(そしてglmerControl(optimizer="bobyqa")、glmer呼び出しに含める必要があります。そうしないと、まったく収束しません。)

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

3
コックスモデルとロジスティック回帰
次の問題が発生したとします。 今後3か月以内に当店で購入を停止する可能性が最も高いクライアントを予測します。 各クライアントについて、ショップで購入を開始した月がわかります。さらに、月次集計で多くの行動機能があります。「最年長」のクライアントは50か月間購入しています。クライアントが購入を開始してからの時間を()で示しましょう。クライアントの数は非常に多いと想定できます。クライアントが3か月間の購入を停止してから戻ってきた場合、その顧客は新しい顧客として扱われるため、イベント(購入の停止)は1回しか発生しません。Tの∈ [ 0 、50 ]tttt∈[0,50]t∈[0,50]t \in [0, 50] 2つの解決策が思い浮かびます。 ロジスティック回帰 -各クライアントおよび各月(最新の3か月を除く)で、クライアントが購入を停止したかどうかを判断できるため、クライアントと月ごとに1回の観測でローリングサンプルを実行できます。カテゴリ変数として開始してからの月数を使用して、基本ハザード関数に相当するものを取得できます。 拡張Coxモデル -この問題は、拡張Coxモデルを使用してモデル化することもできます。この問題は生存分析により適しているようです。 質問:同様の問題における生存分析の利点は何ですか?生存分析は何らかの理由で発明されたため、何らかの重大な利点がなければなりません。 生存分析に関する私の知識はそれほど深くはなく、Coxモデルの潜在的な利点のほとんどは、ロジスティック回帰を使用しても達成できると思います。 層化コックスモデルの等価物は、と層化変数の相互作用を使用して取得できます。 ttt 相互作用コックスモデルは、母集団をいくつかの部分母集団に分割し、すべての部分母集団のLRを推定することで取得できます。 私が見る唯一の利点は、Coxモデルがより柔軟であることです。たとえば、クライアントが6か月後に購入を停止する確率を簡単に計算できます。

4
ロジット関数は、バイナリデータの回帰モデリングに常に最適ですか?
私はこの問題について考えてきました。バイナリデータをモデル化するための通常のロジスティック関数は次のとおりです しかしであるロジット関数は、S字カーブ、データをモデル化するため、常に最良のですか?たぶん、あなたはあなたのデータは、通常のS字カーブが、ドメインの曲線の異なる種類従わないと信じるに足る理由持っている(0、1)。log(p1−p)=β0+β1X1+β2X2+…log⁡(p1−p)=β0+β1X1+β2X2+… \log\left(\frac{p}{1-p}\right)=\beta_0+\beta_1X_1+\beta_2X_2+\ldots (0,1)(0,1)(0,1) これに関する研究はありますか?プロビット関数または類似のものとしてモデル化できますが、それがまったく別のものである場合はどうでしょうか?これにより、効果をより正確に推定できますか?ただ考えただけで、これに関する研究はあるのだろうか。

2
ロジスティック回帰の行列表記
線形回帰(二乗損失)では、行列を使用して、目的を非常に簡潔に表記します 最小限∥ X - Bを∥ 2最小化する ‖Aバツ−b‖2\text{minimize}~~ \|Ax-b\|^2 ここで、AAAはデータ行列、バツバツxは係数、bbbは応答です。 ロジスティック回帰の目的に同様の行列表記はありますか?私が見たすべての表記法は、すべてのデータポイント(\ sum _ {\ text data} \ text {L} _ \ text {logistic}(y、\ beta ^ Tx)のようなもの)の合計を取り除くことはできません∑d a t aLロジスティック(y、βTx )∑dataLロジスティック(y、βTバツ)\sum_{\text data} \text{L}_\text{logistic}(y,\beta^Tx)。 編集:joceratopsとAdamOの素晴らしい答えに感謝します。彼らの答えは、線形回帰がより簡潔な表記法を持っている別の理由が、正方形と和またはe ^ \ top eをカプセル化するノルムの定義にあることを理解するのに役立ちましたe⊤ee⊤ee^\top e。しかし、ロジスティック損失では、そのような定義はなく、表記法が少し複雑になります。

3
ロジスティック回帰:Scikit Learn対glmnet
Rのパッケージをsklearn使用してロジスティック回帰ライブラリの結果を複製しようとしていglmnetます。 sklearn分w 、c12wTw + C∑i = 1Nログ(exp( − y私( XT私w + c ))+ 1 )分w、c12wTw+C∑私=1Nログ⁡(exp⁡(−y私(バツ私Tw+c))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) のビネットからglmnet、その実装はわずかに異なるコスト関数を最小化します 分β、β0− [ 1N∑i = 1Ny私(β0+ xT私β)− ログ(1 + e(β0+ xT私β))] + λ [ (α - 1 )| |β| |22/ 2+α | |β| |1]分β、β0−[1N∑私=1Ny私(β0+バツ私Tβ)−ログ⁡(1+e(β0+バツ私Tβ))]+λ[(α−1)||β||22/2+α||β||1]\min_{\beta, \beta_0} -\left[\frac1N \sum_{i=1}^N y_i(\beta_0+x_i^T\beta)-\log(1+e^{(\beta_0+x_i^T\beta)})\right] …

1
ロジスティック関数のヘッセ行列
ロジスティック回帰の目的関数のヘッシアンを導き出すのは困難です。ここで、は次のとおりです l(θ)l(θ)l(\theta)l(θ)l(θ)l(\theta)l(θ)=∑i=1m[yilog(hθ(xi))+(1−yi)log(1−hθ(xi))]l(θ)=∑i=1m[yilog⁡(hθ(xi))+(1−yi)log⁡(1−hθ(xi))] l(\theta)=\sum_{i=1}^{m} \left[y_{i} \log(h_\theta(x_{i})) + (1- y_{i}) \log (1 - h_\theta(x_{i}))\right] hθ(x)hθ(x)h_\theta(x)はロジスティック関数です。ヘッセ行列はです。計算して導出しようとしましたが、から行列表記を取得する方法がわかりませんでした。XTDXXTDXX^T D X∂2l(θ)∂θi∂θj∂2l(θ)∂θi∂θj\frac{\partial^2 l(\theta)}{\partial \theta_i \partial \theta_j}∂2l(θ)∂θi∂θj∂2l(θ)∂θi∂θj\frac{\partial^2 l(\theta)}{\partial \theta_i \partial \theta_j} を導出するクリーンで簡単な方法を知っている人はいますか?XTDXXTDXX^T D X
15 logistic 

5
ロジスティック回帰はノンパラメトリック検定ですか?
最近、メールで次の質問を受け取りました。以下に回答を掲載しますが、他の人の考えを聞くことに興味がありました。 ロジスティック回帰をノンパラメトリック検定と呼びますか?私の理解では、データが正規分布していないため、単にテストにノンパラメトリックのラベルを付けるだけでは不十分です。前提条件の欠如と関係があります。ロジスティック回帰には仮定があります。

2
低イベント率でロジスティック回帰を適用する
私は、イベント発生率は非常に低くなっているデータセット(40,000のうち持つ)。これにロジスティック回帰を適用しています。ロジスティック回帰では、このような低イベントレートのデータについては適切な混同マトリックスが得られないという結果が出ました。しかし、ビジネス上の問題とその定義方法により、イベントの数を40,000からそれ以上に増やすことはできませんが、イベント以外の母集団を削除できることに同意します。12 ⋅ 10512⋅10512\cdot10^5 これに関するあなたの見解を具体的に教えてください: ロジスティック回帰の精度はイベントレートに依存しますか、または推奨される最小イベントレートはありますか? 低イベントレートデータ用の特別なテクニックはありますか? 非イベント母集団を削除すると、モデルの精度が向上しますか? 私は統計モデリングが初めてなので、私の無知を許し、考えられる関連する問題に対処してください。 おかげで、
15 logistic 


2
ロジスティック回帰モデルのRに決定境界をプロットする方法は?
Rでglmを使用してロジスティック回帰モデルを作成しました。2つの独立変数があります。2つの変数の散布図にモデルの決定境界をプロットするにはどうすればよいですか。たとえば、http://onlinecourses.science.psu.edu/stat557/node/55のような図をどのようにプロットできますか 。 ありがとう。
15 r  logistic 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.