統計とビッグデータ logistic

1

信頼区間が正しいのに、なぜこの多項式回帰ではベイジアンの信頼できる区間が偏っているのですか？

以下のようにデータをシミュレーションした下のプロットを考えてみます。1になる真の確率が黒い線で示されているバイナリの結果を調べます。共変量xとp （y o b s = 1 | x ）の間の関数関係は、ロジスティックリンクを持つ3次多項式です（したがって、双方向で非線形です）。yobsyobsy_{obs}xxxp(yobs=1|x)p(yobs=1|x)p(y_{obs}=1 | x) 緑の線はGLMロジスティック回帰近似で、は3次多項式として導入されています。破線の緑の線は、予測の周りの95％信頼区間であるP （Y O B S = 1 | X 、β）ここで、βフィット回帰係数。私はこれを使用しました。xxxp(yobs=1|x,β^)p(yobs=1|x,β^)p(y_{obs}=1 | x, \hat{\beta})β^β^\hat{\beta}R glmpredict.glm 同様に、プルプルラインは、均一な事前分布を使用したベイジアンロジスティック回帰モデルのについて95％信頼できる区間をもつ事後の平均です。私はこのために機能付きのパッケージを使用しました（設定により、事前に情報のない均一な情報が提供されます）。p(yobs=1|x,β)p(yobs=1|x,β)p(y_{obs}=1 | x, \beta)MCMCpackMCMClogitB0=0 赤い点は、のデータセット内の観測を示し、黒い点はy o b s = 0 の観測です。分類/離散分析では一般的ですが、pではなくy （y o b s = 1 | x ）が観察されることに注意してください。yobs=1yobs=1y_{obs}=1yobs=0yobs=0y_{obs}=0yyyp(yobs=1|x)p(yobs=1|x)p(y_{obs}=1 | x) いくつかのことがわかります。左側でがスパースであることを意図的にシミュレーションしました。情報（観察）が不足しているため、ここでは信頼と信頼できる間隔を広くしてほしい。xxx …

9 regression logistic bayesian confidence-interval credible-interval

1

相互に排他的でないカテゴリを分類できる深層学習モデル

例：仕事の説明に「英国のJavaシニアエンジニア」という文があります。私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい：English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか？「編集」：従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます例：3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか？それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

1

「ログ損失」とは、対数損失またはロジスティック損失を指しますか？

両方の方法で見たことがありますが、2つの方法に違いはありますか。どちらがより一般的に参照されますか？

9 logistic terminology logarithm loss-functions

1

同じ方法を使用して線形回帰係数とロジスティック回帰係数を推定できないのはなぜですか？

機械学習の本を読んだところ、線形回帰のパラメーターは（他の方法の中でも）勾配降下法によって推定できる一方で、ロジスティック回帰のパラメーターは通常、最尤推定によって推定されます。線形/ロジスティック回帰に異なる方法が必要な理由を初心者（私）に説明することは可能ですか？別名線形回帰の場合はMLEを使用せず、ロジスティック回帰の場合は勾配降下を使用しないのはなぜですか？

9 regression logistic maximum-likelihood

1

マルチレベルのロジスティック回帰モデルの推定

レベル1（個別レベル）に1つの説明変数とレベル2（グループレベル）に1つの説明変数を持つ次のマルチレベルロジスティックモデル： logit(pij)=π0j+π1jxij…(1)logit(pij)=π0j+π1jxij…(1)\text{logit}(p_{ij})=\pi_{0j}+\pi_{1j}x_{ij}\ldots (1) π0j=γ00+γ01zj+u0j…(2)π0j=γ00+γ01zj+u0j…(2)\pi_{0j}=\gamma_{00}+\gamma_{01}z_j+u_{0j}\ldots (2) π1j=γ10+γ11zj+u1j…(3)π1j=γ10+γ11zj+u1j…(3)\pi_{1j}=\gamma_{10}+\gamma_{11}z_j+u_{1j}\ldots (3) ここで、グループレベルの残差およびは、期待値がゼロの多変量正規分布であると想定されます。残差誤差の分散はとして指定され、残差誤差の分散はとして指定されます。u0ju0ju_{0j}u1ju1ju_{1j}u0ju0ju_{0j}σ20σ02\sigma^2_0u1ju1ju_{1j}σ21σ12\sigma^2_1 モデルのパラメーターを推定したいのですが、Rcommand を使用したいと思います glmmPQL。式（1）に式（2）と（3）を代入すると、 logit(pij)=γ00+γ10xij+γ01zj+γ11xijzj+u0j+u1jxij…(4)logit(pij)=γ00+γ10xij+γ01zj+γ11xijzj+u0j+u1jxij…(4)\text{logit}(p_{ij})=\gamma_{00}+\gamma_{10}x_{ij}+\gamma_{01}z_j+\gamma_{11}x_{ij}z_j+u_{0j}+u_{1j}x_{ij}\ldots (4) 30のグループと各グループに5つの個人があります。(j=1,...,30)(j=1,...,30)(j=1,...,30) Rコード： #Simulating data from multilevel logistic distribution library(mvtnorm) set.seed(1234) J <- 30 ## number of groups n_j <- rep(5,J) ## number of individuals in jth group N <- sum(n_j) g_00 <- -1 g_01 …

9 r logistic generalized-linear-model simulation multilevel-analysis

2

2つのオッズ比の差の統計的検定の引用？

ここのコメントで、@ gungは書きました、私はそれらが少し（おそらく〜25％）オーバーラップする可能性があり、5％レベルでも重要であると信じています。表示される95％のCIは個々のORに関するものですが、2つのORのテストはそれらの違いに関するものであることを覚えておいてください。ただし、まったくオーバーラップしない場合、それらは明らかに大きく異なります。95％のCIが他のORポイントの推定値とオーバーラップする場合、それらは確実にオーバーラップしません。上記の声明を引用している人はいますか？レビュー担当者は、2つのオッズ比が互いに大幅に異なるかどうかを計算してほしいと考えています。

9 logistic confidence-interval odds-ratio references

1

（ロジスティック）回帰に「予測」という単語を使用するのはどの程度公平ですか？

私の理解は、回帰でさえ因果関係を与えないということです。これは、y変数とx変数の間の関連付けと、場合によっては方向のみを与えることができます。私は正しいですか？ほとんどのコースの教科書やオンラインのさまざまなコースページでも、「xはyを予測する」に似たフレーズをよく見かけます。また、リグレッサを予測子、yを応答と呼ぶことがよくあります。線形回帰にそれを使用することはどれほど公平ですか？ロジスティック回帰はどうですか？（確率tを比較できるしきい値tがある場合）

9 regression logistic predictive-models terminology causality

2

比例オッズの仮定の確認は、polr関数を使用した順序ロジスティック回帰で保持されます

MASSパッケージの 'polr'関数を使用して、15の連続的な説明変数を持つ順序カテゴリカル応答変数の順序ロジスティック回帰を実行しました。コード（以下に表示）を使用して、モデルがUCLAのガイドで提供されているアドバイスに従ってプロポーショナルオッズの仮定を満たしていることを確認しました。ただし、さまざまなカットポイントの係数が類似しているだけでなく、まったく同じであることを示す出力について少し心配しています（下の図を参照）。 FGV1b <- data.frame(FG1_val_cat=factor(FGV1b[,"FG1_val_cat"]), scale(FGV1[,c("X","Y","Slope","Ele","Aspect","Prox_to_for_FG", "Prox_to_for_mL", "Prox_to_nat_border", "Prox_to_village", "Prox_to_roads", "Prox_to_rivers", "Prox_to_waterFG", "Prox_to_watermL", "Prox_to_core", "Prox_to_NR", "PCA1", "PCA2", "PCA3")])) b <- polr(FG1_val_cat ~ X + Y + Slope + Ele + Aspect + Prox_to_for_FG + Prox_to_for_mL + Prox_to_nat_border + Prox_to_village + Prox_to_roads + Prox_to_rivers + Prox_to_waterFG + Prox_to_watermL + Prox_to_core …

9 r logistic assumptions ordered-logit polr

5

ビッグデータのロジスティック回帰

約5000の機能のデータセットがあります。そのデータについて、私は最初に特徴の選択にカイ二乗検定を使用しました。その後、応答変数と有意な関係を示す変数を約1500個取得しました。ここでロジスティック回帰を当てはめる必要があります。私はRにglmultiパッケージを使用しています（glmultiパッケージはvlmの効率的なサブセット選択を提供します）が、一度に30の機能しか使用できません。それ以外の場合、データセットの行数が約20000であるため、パフォーマンスが低下します。上記の問題を解決する他のアプローチや手法はありますか？上記の方法で行くと、モデルを合わせるのに時間がかかりすぎます。

9 r logistic generalized-linear-model modeling regression-strategies

3

ロジスティック回帰：真陽性の最大化-偽陽性

ロジスティック回帰モデル（エラスティックネット正則化を備えたRのglmnetを介してフィット）があり、真陽性と偽陽性の差を最大化したいと思います。これを行うために、次の手順が思い浮かびました：標準ロジスティック回帰モデルに適合予測しきい値を0.5として使用して、すべての正の予測を特定する正に予測された観測値に重み1を割り当て、その他すべてに0を割り当てます重み付きロジスティック回帰モデルのあてはめこのアプローチの欠点は何でしょうか？この問題を解決する正しい方法は何でしょうか？真陽性と偽陰性の数の差を最大化したい理由は、アプリケーションの設計によるものです。クラスプロジェクトの一環として、私はオンラインマーケットプレイスで自律的な参加者を構築しています。私のモデルが何かを購入して後でより高い価格で販売できると予測した場合、入札を行います。ロジスティック回帰に固執し、固定費と単価の増分に基づいてバイナリの結果（勝ち、負け）を出力したいと思います（すべてのトランザクションで同じ金額を増減します）。誤検知は、私が何かを購入し、それをより高い価格で販売することができないことを意味するため、私を傷つけます。しかし、偽陰性は私に害を及ぼすことはありません（機会費用の点でのみ）。それは、私が購入しなかったというだけのことですが、もし持っていたなら、私はお金を稼いだでしょう。同様に、 0.5のカットオフは完全に任意であり、真/偽陽性の差が最も大きくなる予測しきい値でステップ1のモデルを最適化すると、0.4に近づくことがわかります。これは私のデータの歪んだ性質によるものだと思います-ネガティブとポジティブの比率は約1：3です。現在、私は次の手順に従っています：データをトレーニング/テストに分割トレーニングにモデルを適合させ、テストセットで予測を行い、真陽性と偽陽性の差を計算しますモデルを完全にフィットさせ、テストセットで予測を行い、真陽性と偽陽性の差を計算しますトレーニングセットがフルセットのサブセットであるにもかかわらず、ステップ＃3の真/偽陽性の差は、ステップ＃2よりも小さくなります。＃3のモデルの真のネガティブが多く、偽ネガティブが少ないかどうかは気にしないので、尤度関数自体を変更せずにできることはありますか？

9 r regression logistic classification glmnet

4

連続従属変数にロジスティック回帰を使用する

最近、研究論文の改訂版を入手しました。以下は、私の論文に対する査読者のコメントです。 1つのモデルから得られた結果はあまり説得力がありません。特に、線形回帰は通常、外れ値の処理に欠陥があります。著者はまた、ロジスティック回帰を試み、対応する結果を現在の結果と比較することをお勧めします。同様の観察結果が得られれば、結果はより確実になります。レビューアのコメントは正しいですか？ロジスティック回帰は、多重線形回帰よりも優れていますか？問題は、私の従属変数がカテゴリカルではなく、スケール変数であることです。私は今何ができますか？私のモデルを評価するために、他にどのような回帰方法をお勧めしますか？スコアは次の表の従属変数です。最新性、頻度、在職期間、最終スコアは独立変数です。私はサイトからこれらの変数を抽出していると私は、これらのことを仮定した独立変数が持っている重要な影響にスコアを。したがって、私は次のモデルを表します。ちなみに、この線形モデルのR 2乗の値は0.316です。レビューアもこの値についてコメントしました：学習された係数の質に関する指標がないため、結果は説得力がありません。小さなR ^ 2は、モデルが過剰適合している可能性があるため、良好なパフォーマンスを示すことはできません。 Rの2乗に対して0.316は非常に低いですか？以前の論文で、私は同様の価値観をたくさん見ました。

9 regression logistic multiple-regression

2

ロジスティック回帰における高度に歪んだデータセットの重みの追加

入力変数をバイナリ出力変数に合わせるために、標準バージョンのロジスティック回帰を使用しています。しかし、私の問題では、負の出力（0）が正の出力（1）をはるかに上回ります。比率は20：1です。そのため、分類子をトレーニングすると、正の出力の可能性を強く示唆する機能でも、対応するパラメーターの値が非常に低い（非常に負の）ようです。これは、パラメーターをその方向に引っ張っている否定的な例が多すぎるために発生しているようです。だから私は私が肯定的な例に重みを追加できるかどうか疑問に思っています（たとえば1ではなく20を使用して）。これはまったくメリットがありますか？もしそうなら、私はどのように重みを追加するべきですか（以下の方程式で）。次のようなコスト関数ルックス J=(−1/m)⋅∑i=1my⋅log(h(x⋅θ))+(1−y)(1−log(h(x⋅θ)))J=(−1/m)⋅∑i=1my⋅log⁡(h(x⋅θ))+(1−y)(1−log⁡(h(x⋅θ)))J = (-1 / m) \cdot\sum_{i=1}^{m} y\cdot\log(h(x\cdot\theta)) + (1-y)(1 - \log(h(x\cdot\theta))) このコスト関数（WRTの勾配）次のとおりです。θθ\theta grad=((h(x⋅θ)−y)′⋅X)′grad=((h(x⋅θ)−y)′⋅X)′\mathrm{grad} = ((h(x\cdot\theta) - y)' \cdot X)' ここで、 =テストケースの数、x =特徴行列、y =出力ベクトル、h =シグモイド関数、θ =学習しようとしているパラメーター。mmmxxxyyyhhhθθ\theta 最後に、可能な限り低いを見つけるために勾配降下法を実行します。実装は正しく実行されているようです。JJJ

9 regression logistic weighted-regression

2

ロジスティック回帰のオッズおよびオッズ比

1つのロジスティック回帰の説明を理解するのが困難です。ロジスティック回帰は、温度と死んでいるか死んでいない魚との間のものです。ロジスティック回帰の傾きは1.76です。次に、魚が死ぬ確率はexp（1.76）= 5.8倍になります。言い換えれば、魚が死ぬ確率は、摂氏1度の気温の変化ごとに5.8倍に増加します。 2012年には50％の魚が死亡するため、2012年の気温が摂氏1度上昇すると、魚の死亡率は82％に上昇します。 2012年の気温が摂氏2度上昇すると、魚の死滅率は97％に上昇します。摂氏3度の増加-> 100％魚が死ぬ。 1、2、3の計算方法を教えてください。（82％、97％、100％）

9 logistic odds-ratio odds

1

ロジスティック回帰モデル変数のp値の意味

だから私はRでロジスティック回帰モデルを使っています。統計はまだ初めてですが、回帰モデルについて少し理解できたように思いますが、それでも気になることがいくつかあります。リンクされた画像を見ると、私が作成したサンプルモデルのRプリントの概要が表示されています。このモデルは、データセット内の電子メールがrefoundか（バイナリ変数される場合は、予測しようとしているisRefound）とデータセットが密接に関連する2つの変数が含まれているisRefound、すなわち、next24およびnext7daysこれらはまた、バイナリであり、メールが次にクリックされる場合は教えてくれ- 24時間/ログの現在のポイントから次の7日間。高いp値は、この変数がモデル予測に与える影響がかなりランダムであることを示しているはずですよね？これに基づいて、これらの2つの変数が計算式から外されている場合、モデル予測の精度が10％未満に低下する理由がわかりません。これらの変数の重要度が非常に低い場合、それらをモデルから削除すると大きな影響があるのはなぜですか？よろしくお願いします、リッキーフォックス編集：最初に私はnext24だけを削除しましたが、これはcoefがかなり小さいので影響が少ないはずです。予想通り、ほとんど変更されていません-そのための写真をアップロードしないでください。 next7daysを削除すると、モデルに大きな影響がありました：AIC 200kアップ、精度16％まで、再現率73％まで

9 r regression logistic p-value interpretation

1

カテゴリー変数を使用したロジスティック回帰のデータのシミュレーション

私はロジスティック回帰のテストデータを作成しようとしていましたが、この投稿「ロジスティック回帰の人工データをシミュレートする方法」を見つけました。これは良い答えですが、連続変数のみを作成します。リンクと同じ例で、yに関連付けられた5レベルのカテゴリカル変数x3（ABCDE）はどうですか？

9 r logistic simulation

タグ付けされた質問 「logistic」

タグ付けされた質問「logistic」