統計とビッグデータ probit

10

違いは何ですかロジットとプロビットモデルは？ここで、ロジスティック回帰を使用するタイミングと、Probitを使用するタイミングを知りたいと思っています。 Rを使用して定義している文献があれば、それも参考になります。

299 r generalized-linear-model logistic probit link-function

5

例で問題を説明します。いくつかの属性（年齢、性別、国、地域、都市）を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

一般化線形モデル（GLM）の潜在変数の解釈

短縮版：ロジスティック回帰とプロビット回帰は、観測前に何らかの固定しきい値に従って離散化される連続潜在変数を含むものとして解釈できることを知っています。同様の潜在変数の解釈は、例えばポアソン回帰で利用可能ですか？3つ以上の個別の結果がある場合、二項回帰（ロジットまたはプロビットなど）についてはどうですか？最も一般的なレベルでは、潜在変数の観点からGLMを解釈する方法はありますか？ロングバージョン：バイナリ結果のプロビットモデルを動機付ける標準的な方法（たとえば、Wikipediaから）は次のとおりです。予測変数Xを条件として、正規分布している未観測/潜在結果変数YYYがあります。この潜在変数はしきい値処理を受け、、場合、実際に観測される離散結果はXXXY ≥ γをu=1u=1u=1Y≥γY≥γY \ge \gammau=0u=0u=0、場合です。これにより、Xが与えられた場合のu = 1の確率は、平均および標準偏差がしきい値γの関数である正規CDFの形をとることになります。Y<γY<γY < \gammau=1u=1u=1XXXγγ\gammaおよびX上のの回帰の傾き。したがって、プロビットモデルは、X上のYの潜在的な回帰から勾配を推定する方法として動機付けられています。YYYXXXYYYXXX これは、Thissen＆Orlando（2001）の以下のプロットに示されています。これらの著者は、私たちの目的ではプロビット回帰に非常に似ているアイテム応答理論から通常のオジーブモデルを技術的に議論しています（これらの著者はXの代わりにを使用し、確率は通常のPではなくTで記述されていることに注意してください）。θθ\thetaXXXTTTPPP ロジスティック回帰はほぼ同じ方法で解釈できます。唯一の違いは、Xが与えられると、観測されていない連続が正規分布ではなくロジスティック分布に従うことです。Yが正規分布ではなくロジスティック分布に従う理由の理論的議論は少し明確ではありません...しかし、結果のロジスティック曲線は、実際の目的（リスケーリング後）で通常のCDFと本質的に同じように見えるため、おそらく実際には、どのモデルを使用するかが重要になる傾向があります。ポイントは、両方のモデルに非常に簡単な潜在変数の解釈があるということです。YYYXXXYYY -私たちは、他のGLMSに見て、類似した（または地獄、非類似に見える）潜在変数の解釈を適用することができるかどうかを知りたいにも、または任意の GLM。上記のモデルを拡張して、項分布の結果（つまり、ベルヌーイの結果だけでなく）を説明することは、私には完全に明確ではありません。おそらく、単一のしきい値γを持つ代わりに、複数のしきい値（観測された個別の結果の数より1つ少ない）があることを想像することでこれを行うことができます。ただし、しきい値が等間隔になっているなど、しきい値に何らかの制約を課す必要があります。詳細は明らかにしていませんが、このようなことがうまくいくと確信しています。n > 1n>1n>1γγ\gamma ポアソン回帰のケースに移行することは、私にはさらに明確ではないようです。この場合のモデルについて考えるのにしきい値の概念が最善の方法になるかどうかはわかりません。また、潜在的な結果がどのような分布であると考えられるかについてもわかりません。これまで最も望ましい解決策は、解釈の一般的な方法だろう任意のいくつかのディストリビューションや他との潜在変数の面でGLMを-この一般的な解決策を暗示していた場合でも、異なるロジット/プロビット回帰の通常のものよりも潜在変数の解釈を。もちろん、一般的な方法が通常のロジット/プロビットの解釈に同意するだけでなく、他のGLMにも自然に拡張されると、さらに格好良くなります。しかし、そのような潜在変数の解釈が一般的なGLMの場合に一般的に利用できない場合でも、上記の二項およびポアソンのような特殊な場合の潜在変数の解釈についても聞きたいです。参照資料 Thissen、D.＆Orlando、M.（2001）。2つのカテゴリでスコア付けされたアイテムのアイテム応答理論。D. Thissen＆Wainer、H.（編）、Test Scoring（pp。73-140）。ニュージャージー州マーワー：Lawrence Erlbaum Associates、Inc. 2016-09-23を編集 GLMが潜在変数モデルであるという些細な感覚があります。つまり、推定される結果分布のパラメーターを「潜在変数」として常に見ることができるということです。つまり、直接観察しません。、たとえば、ポアソンのレートパラメーターは、データから推測するだけです。この解釈によれば、線形モデル（およびもちろん他の多くのモデル！）は「潜在変数モデル」であるため、これはかなり些細な解釈であり、私が探しているものではありません。たとえば、通常の回帰では、Xが与えられた場合に通常のYの「潜在的な」を推定します。μμ\muYYYバツバツX。そのため、潜在変数のモデリングとパラメーターの推定を混同しているようです。私が探しているものは、たとえばポアソン回帰の場合、観測された結果が最初にポアソン分布を持たなければならない理由についての理論モデルのように見えます。潜在的なの分布、存在する場合は選択プロセスなど。その後、（おそらく決定的には？）これらの潜在的な分布/プロセスのパラメーターの観点から推定GLM係数を解釈できるはずです。潜在正規変数の平均シフトおよび/または閾値γのシフトに関してプロビット回帰の係数を解釈します。YYYγγ\gamma

21 logistic generalized-linear-model poisson-regression probit latent-variable

1

2SLSが第2ステージのプロビット

観測データで因果関係を推測するために、機器変数分析を使用しようとしています。私の研究における内因性の問題に対処する可能性が高い2段階の最小二乗（2SLS）回帰に遭遇しました。ただし、最初の段階はOLSになり、2番目の段階は2SLS内でプロビットになります。私の読書と検索に基づいて、研究者は2SLSまたは第1段階のプロビットと第2段階のOLSのいずれかを使用していますが、私が達成しようとしているのは逆ではありません。現在、Stataを使用していますが、Stataのivregコマンドはストレート2SLS用です。

15 stata probit instrumental-variables 2sls

3

ロジットまたはプロビットモデルで選択された係数の同時等性をテストする方法は？

ロジットまたはプロビットモデルで選択された係数の同時等性をテストする方法は？標準的なアプローチとは何ですか？また、最先端のアプローチとは何ですか？

14 hypothesis-testing logit probit

2

対数オフセットのあるバイナリモデル（プロビットおよびロジット）

プロビットやロジットなどのバイナリモデルでオフセットがどのように機能するのか、誰からも導出されていますか？私の問題では、フォローアップウィンドウの長さが異なる場合があります。患者が治療として予防注射を受けたとします。ショットはさまざまなタイミングで発生するため、結果がフレアアップが発生したかどうかのバイナリインジケータである場合、一部の人々が症状を示す時間があることを調整する必要があります。フレアアップの確率は、フォローアップ期間の長さに比例するようです。（ポアソンとは異なり）オフセットのあるバイナリモデルがこの直感をどのようにキャプチャするかは、数学的には明確ではありません。オフセットは、Stata（p.1666）とRの両方の標準オプションであり、ポアソンについては簡単に確認できますが、バイナリの場合は少し不透明です。たとえば、これは代数的にモデルと同等です。は、係数が1に制限された標準モデルです。これは対数オフセットと呼ばれます。\ exp \ {\}を\ Phi（）または\ Lambda（）に置き換えた場合、これがどのように機能するかを理解するのに苦労しています。E[y| x]=exp{x′β+logZ}、logZ1E[ y| x ]Z= exp{ x′β} 、E[y|バツ]Z=exp⁡{バツ′β}、\begin{equation} \frac{E[y \vert x]}{Z}=\exp\{x'\beta\}, \end{equation}E[ y| x ] = exp{ x′β+ ログZ} 、E[y|バツ]=exp⁡{バツ′β+ログ⁡Z}、\begin{equation}E[y \vert x]=\exp\{x'\beta+\log{Z}\}, \end{equation}ログZログ⁡Z\log Z111Φ （）Λ （）exp{ }exp⁡{}\exp\{\}Φ （）Φ（）\Phi()Λ （）Λ（）\Lambda() アップデート＃1：以下にロジットのケースについて説明しました。アップデート＃2：ここでは、プロビットのような非ポアソンモデルのオフセットの主な使用方法と思われるものについて説明します。オフセットを使用して、インデックス関数係数の尤度比テストを実行できます。まず、制約のないモデルを推定し、推定を保存します。という仮説をテストするとします。次に、変数を作成し、をドロップし、を非対数オフセットとして使用するモデルに適合します。これが制約モデルです。LRテストは2つを比較し、通常のWaldテストの代替です。、Z = 2 ⋅ X X Zβバツ= 2βバツ=2\beta_x=2z= …

12 logit probit logarithm offset

2

プロビット2ステージ最小二乗（2SLS）

最初の段階がプロビットであり、第2段階がOLSである2段階のIV回帰を実行することが可能であると言われました。第1ステージがプロビットで第2ステージがプロビット/ポアソンモデルの場合、2SLSを使用できますか？

12 binary-data instrumental-variables probit 2sls

3

プロビットおよびロジットモデルの限界効果

誰でもプロビットとロジットモデルの限界効果を簡単に計算する方法を説明できますか？私は統計に不慣れで、これら2つのモデルについて混乱しています。

12 logistic interpretation logit probit

2

「段階的回帰」はどのように機能しますか？

次のRコードを使用して、プロビットモデルを適合させました。 p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1) stepwise(p1, direction='backward/forward', criterion='BIC') 私は何をしstepwise、backward/forward正確に行い、変数をどのように選択するのか知りたいですか？

11 r probit stepwise-regression

1

IV-プロビットの尤度関数の導出

ここで、Iは、バイナリモデルを持っているので、y∗1y1∗y_1^*潜在非観測変数でありy1∈{0,1}y1∈{0,1}y_1 \in \{0,1\}観察しました。y2y2y_2はy1y1y_1を決定し、z2z2z_2は私の楽器です。つまり、モデルは簡単です。 y∗1y2y1===δ1z1+α1y2+u1δ21z1+δ22z2+v2=zδ+v21[y∗>0]y1∗=δ1z1+α1y2+u1y2=δ21z1+δ22z2+v2=zδ+v2y1=1[y∗>0]\begin{eqnarray} y_1^*&=& \delta_1 z_1 + \alpha_1 y_2 + u_1 \\ y_2 &=& \delta_{21} z_1 + \delta_{22}z_2 + v_2 = \textbf{z}\delta + v_2 \\ y_1 &=& \text{1}[y^*>0] \end{eqnarray} の誤差項が独立していないので、しかし、 (u1v2)∼N(0,[1ηητ2]).(u1v2)∼N(0,[1ηητ2]).\begin{eqnarray} \begin{pmatrix} u_1 \\ v_2 \end{pmatrix} \sim \mathcal{N} \left(\textbf{0} \; , \begin{bmatrix} 1 &\eta \\ \eta &\tau^2 \end{bmatrix} \right). …

10 maximum-likelihood econometrics probit

1

2SLSとBinary内生変数の整合性

2SLS推定器は、バイナリの内生変数でも一貫していることを読みました（http://www.stata.com/statalist/archive/2004-07/msg00699.html）。最初の段階では、線形モデルの代わりにプロビット治療モデルが実行されます。 1Sステージがプロビットモデルまたはロジットモデルであっても、2SLSが一貫していることを示す正式な証拠はありますか？また、結果もバイナリの場合はどうなりますか？バイナリの結果とバイナリの内因性変数（第1ステージと第2ステージは両方ともバイナリプロビット/ロジットモデル）がある場合、2SLSメソッドを模倣すると一貫性のない推定値が生成されることを理解しています。これに対する正式な証拠はありますか？Wooldridgeの計量経済学の本にはいくつかの議論がありますが、矛盾を示す厳密な証拠はないと思います。 data sim; do i=1 to 500000; iv=rand("normal",0,1); x2=rand("normal",0,1); x3=rand("normal",0,1); lp=0.5+0.8*iv+0.5*x2-0.2*x3; T=rand("bernoulli",exp(lp)/(1+exp(lp))); Y=-0.8+1.2*T-1.3*x2-0.8*x3+rand("normal",0,1); output; end; run; ****1st stage: logit model ****; ****get predicted values ****; proc logistic data=sim descending; model T=IV; output out=pred1 pred=p; run; ****2nd stage: ols model with predicted values****; proc reg data=pred1; model y=p; run; …

10 probit instrumental-variables endogeneity

3

母集団のr二乗変化の信頼区間を取得する方法

簡単な例のために、2つの線形回帰モデルがあると仮定しますモデル1は、3つの予測因子を持っているx1a、x2bと、x2c モデル2には、モデル1からの3つの予測子と2つの追加の予測子がx2aあり、x2b 母集団の分散が説明人口回帰式があるモデル1及びρ 2 （2 ）増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 （2 ） - ρ 2 （1 ）ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子（たとえば、5および30）に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J （2 ） - R 2 次元J （1 ）推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。Δρ2Δρ2\Delta\rho^2Δr2adj=r2adj(2)−r2adj(1)Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)} ご質問されたの合理的な推定量Δは、ρ …

10 regression confidence-interval estimation r-squared shrinkage anova t-test references tukey-hsd machine-learning boosting r clustering fishers-exact generalized-linear-model model probit link-function r survival probability distributions dice logistic lme4-nlme glmm meta-analysis distributions distributions factor-analysis r anova repeated-measures post-hoc

1

相互に排他的でないカテゴリを分類できる深層学習モデル

例：仕事の説明に「英国のJavaシニアエンジニア」という文があります。私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい：English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか？「編集」：従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます例：3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか？それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

1

観測されたイベントと期待されたイベントを比較する方法は？

4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計（18）を使用して、イベントの予想頻度を計算できますか？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

4

ロジット/プロビットの非定常性は重要ですか？

質問したいのですが、いくつかの変数が通貨危機のリスクを改善するかどうかを調査するためにロジットを使用しています。私は1980年からの多くの国（不均衡なパネル）の年次データを持っています。ダミー変数は、通貨危機が始まった場合（私の定義によれば）1、それ以外の場合は0です。説明変数は、経常収支/ GDP、純外国資産/ GDP、ローン/ GDPなどのいくつかの理論によるものです...すべてが遅れています（-1）。私はロバストな標準誤差を使用していますが、これは不均一分散と一致しているはずです。ただし、たとえばGDPまたはNFA / GDPへのローンは定常性ではありません（パネルテスト）。これは問題ですか？ロジット/プロビットを実行する定常性の紙のテストを見たことがありません。私にとってそれが問題ではないことも直感的です。変数が危機のリスクを増加させるかどうかをテストしている場合、それは問題ではないはずです。この変数が永続的に上昇していること。逆に、上昇する変数は危機のリスクを永続的に上昇させており、それが持続不可能なレベルに達すると、危機が発生します。私が正しいかどうか、答えてください。

8 logit probit

タグ付けされた質問 「probit」

タグ付けされた質問「probit」