ここで、ロジスティック回帰を使用するタイミングと、Probitを使用するタイミングを知りたいと思っています。
Rを使用して定義している文献があれば、それも参考になります。
ここで、ロジスティック回帰を使用するタイミングと、Probitを使用するタイミングを知りたいと思っています。
Rを使用して定義している文献があれば、それも参考になります。
回答:
主にリンク機能が異なります。
Logitの場合:
プロビット: (累積標準pdf)
他の方法では、ロジスティックのテールはわずかに平坦です。すなわち、プロビット曲線はロジット曲線よりも速く軸に近づきます。
ロジットはプロビットよりも簡単に解釈できます。ロジスティック回帰は、対数オッズのモデリングとして解釈できます(つまり、1日に25本以上のタバコを吸う人は、65歳になる前に死亡する可能性が6倍高い)。通常、人々はロジットでモデリングを開始します。各モデルの尤度値を使用して、ロジットとプロビットを決定できます。
標準的な線形モデル(例:単純な回帰モデル)は、2つの「部分」を持つと考えることができます。これらは、構造コンポーネントおよびランダムコンポーネントと呼ばれます。例:
最初の2つの用語(つまり、)は、構造成分、および(正規分布誤差項を示す)はランダム成分です。応答変数が正規分布していない場合(たとえば、応答変数がバイナリの場合)、このアプローチは無効になる可能性があります。一般化線形モデル
β 0 + β 1 X ε G (μ )= β 0 + β 1 X β 0 + β 1 XのG ()μ
リンク関数はGLiMのキーです:応答変数の分布は非正規であるため、構造コンポーネントを応答に接続できます。つまり、それらを「リンク」します(名前の由来です)。ロジットとプロビットはリンクであるため(@vinuxが説明したように)、これも質問の鍵となります。リンク機能を理解することで、どちらを使用するかをインテリジェントに選択できます。許容できるリンク関数は多数ありますが、多くの場合、特別なものがあります。雑草に深く入りたくない場合(これは非常に技術的になる可能性があります)、予測平均は必ずしも数学的に応答分布の標準位置パラメーターと同じではありません。β。これの利点は、「最小限の十分な統計が存在することです」(ドイツ語ロドリゲス)。バイナリ応答データ(より具体的には、二項分布)の正規リンクはロジットです。ただし、構造コンポーネントを間隔にマップできる関数が多数あり、したがって許容可能です。プロビットも人気がありますが、時々使用される他のオプションがあります(相補ログログ、、しばしば「cloglog」と呼ばれます)。したがって、可能なリンク関数は多数あり、リンク関数の選択は非常に重要です。以下のいくつかの組み合わせに基づいて選択する必要があります。
これらのアイデアをより明確に理解するために必要な概念的な背景を少し説明してから(ご容赦ください)、これらの考慮事項を使用してリンクの選択を導く方法を説明します。(@Davidのコメントは、実際に異なるリンクが選択される理由を正確にキャプチャしていると思います。)まず、応答変数がベルヌーイ試行の結果(つまりまたは)である場合、応答の分布は2項式であり、実際にモデル化しているのは、観測値がなる確率です(つまり、)。その結果、実を間隔マッピングする関数動作します。
実体理論の観点から、共変量を成功の確率に直接関係していると考えている場合、正規のリンクであるため、通常はロジスティック回帰を選択します。ただし、次の例を考慮してくださいhigh_Blood_Pressure
。いくつかの共変量の関数としてモデル化するように求められます。血圧自体は通常、人口に分布しますが(実際にはそれを知りませんが、合理的な一見のように思えます)、それにもかかわらず、臨床医は研究中にそれを二分しました(つまり、彼らは「高BP」または「正常」のみを記録しました)。この場合、理論的な理由から、プロビットがアプリオリに望ましいでしょう。これは、@ Elvisが「バイナリの結果は非表示のガウス変数に依存する」という意味です。対称、成功の確率がゼロからゆっくりと上昇するが、1に近づくにつれてより速く漸減すると信じる場合、詰まりが要求される、など
最後に、問題のリンク関数の形状が大幅に異なる(ただし、ロジットとプロビットは異なりません)場合を除き、データへのモデルの経験的適合がリンクの選択に役立つ可能性は低いことに注意してください。たとえば、次のシミュレーションを検討してください。
set.seed(1)
probLower = vector(length=1000)
for(i in 1:1000){
x = rnorm(1000)
y = rbinom(n=1000, size=1, prob=pnorm(x))
logitModel = glm(y~x, family=binomial(link="logit"))
probitModel = glm(y~x, family=binomial(link="probit"))
probLower[i] = deviance(probitModel)<deviance(logitModel)
}
sum(probLower)/1000
[1] 0.695
データがプロビットモデルによって生成されたことがわかっていて、1000個のデータポイントがある場合でも、プロビットモデルは70%の時間でより適切に適合し、それでもわずかな量であることがよくあります。最後の反復を考えてみましょう:
deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806
この理由は、同じ入力が与えられたときにロジットおよびプロビットリンク関数が非常に類似した出力を生成するからです。
ロジット関数とプロビット関数は実質的に同一です。ただし、@ vinuxが述べたように、ロジットが「コーナーを曲がる」ときに境界から少し離れている点が異なります。(ロジットとプロビットを最適に整列させるには、ロジットのがプロビットの対応する勾配値の倍でなければならないことに注意してください。さらに、上に重なるようにクロッグをわずかにシフトすることもできます。お互いの詳細を確認しますが、図を読みやすくするために横に残しました。)cloglogは非対称ですが、他はそうではありません。より早く0から引き離し始めますが、よりゆっくりで、1に近づいてから急激に回転します。
リンク関数については、さらにいくつかのことが言えます。まず、恒等関数()をリンク関数として考えると、標準線形モデルを一般化線形モデルの特殊なケースとして理解できます(つまり、応答分布は正規で、リンクは恒等関数です)。また、リンクがインスタンス化する変換は、実際の応答データではなく、応答分布を制御するパラメーター(つまり、)に適切に適用されることを認識することも重要です。最後に、実際にはこれらのモデルの議論では変換するための基礎となるパラメーターがないため、多くの場合、実際のリンクと見なされるものは暗黙的に残され、モデルは代わりに構造コンポーネントに適用されるリンク関数の逆数で表されます。つまり、
たとえば、通常、ロジスティック回帰は次のように表されます。
代わりに:
一般化線形モデルの迅速かつ明確な、しかし固体、概要については、第10章を参照フィッツモーリス、レアード、&ウェア(2004) 、これはその私自身の適応であることからも、(その上で、私は、この答えの部分のために身を乗り出しました-およびその他-材料、間違いはすべて私自身のものです)。これらのモデルをRに適合させる方法については、ベースパッケージの関数?glmのドキュメントをご覧ください。
(後で追加された最後のメモ:)プロビットは解釈できないため、プロビットを使用すべきではないと言う人がいるのを時々聞きます。これは事実ではありませんが、ベータ版の解釈は直観的ではありません。ロジスティック回帰では、1つの単位変化関連付けられている「成功」(あるいは、の対数オッズの変化他のすべてが等しい、オッズで倍変化します)。プロビットの場合、これはの変更になり。(たとえば、スコアが1および2のデータセット内の2つの観測値を考えてください。)これらを予測確率に変換するには、通常のCDFを通過できます。β 1 EXP (β 1)β 1、Z 、Z 、Z、またはテーブルで検索します。
(@vinuxと@Elvisの両方に+1。ここでは、これらのことを考えるためのより広範なフレームワークを提供し、それを使用してロジットとプロビットの選択に対処しようとしました。)
vinuxの答えに加えて、すでに最も重要なことを伝えています:
ロジット回帰の係数は、オッズ比に関して自然に解釈されます。
バイナリの結果が隠れたガウス変数 [eq。に依存すると考える場合、確率的回帰は自然なモデルです。1]を決定論的な方法で使用:、場合。
より一般的に、そしてより自然に、いくつかのがしきい値を超えるときに結果がと考える場合、。これは前述のケースに縮小できることは容易にわかりますをとして再スケーリングするだけです。その方程式を確認するのは簡単です[eq。1]はそのままです(係数を再スケールし、切片を変換します)。これらのモデルは、たとえば、が観測されない連続変数である医療コンテキストで、ときに現れる疾患などでZ0YZ0 「病理学的しきい値」を超えています。
どちらもロジットとプロビットモデルのみですモデル。「かつてBoxが言ったように、すべてのモデルが間違っています。一部は便利です」両方のモデルにより、結果に対する効果の存在を検出できます。いくつかの非常に特別な場合を除いて、それらのどれも「本当に真実」ではなく、それらの解釈は慎重に行われるべきです。Y
あなたの声明について
ここで、ロジスティック回帰を使用するタイミングとプロビットを使用するタイミングを知ることにもっと興味があります
ここにはすでに2つの選択肢を選択する際に考慮すべき事項がたくさんありますが、まだ述べられていない重要な考慮事項が1つあります。混合効果ロジスティックまたはプロビットモデルの場合、プロビットモデルを優先する理論的な根拠があります。もちろん、これはロジスティックモデルを優先する先験的な理由がないことを前提としています(たとえば、シミュレーションを実行していて、それが真のモデルであることがわかっている場合)。
最初に、これが本当である理由を見るために、これらのモデルの両方が閾値化された連続回帰モデルとして見られることにまず注意してください。例として、クラスター内の観測の単純な線形混合効果モデルを考えます。
ここで、はクラスターランダム効果で、は誤差項です。次に、ロジスティック回帰モデルとプロビット回帰モデルの両方が、このモデルから生成され、0でしきい値処理されるものとして同等に定式化されます。
場合用語が正常に配布され、あなたはプロビット回帰を持っており、それがロジスティックに分散されている場合は、ロジスティック回帰モデルを持っています。スケールが識別されないため、これらの残差誤差はそれぞれ標準標準および標準ロジスティックとして指定されます。
ピアソン(1900)は、多変量正規データが生成され、カテゴリ化されるようにしきい値が設定された場合、基礎となる変数間の相関は依然として統計的に特定されていることを示しました。これらの相関は多項相関と呼ばれ、バイナリの場合に固有であり、四項相関と呼ばれます これは、プロビットモデルでは、基礎となる正規分布変数のクラス内相関係数が次のことを意味します。
つまり、プロビットの場合、潜在的な潜在変数の共同分布を完全に特徴付けることができます。
ロジスティックモデルにロジスティックモデルにおけるランダム効果分散がまだ同定されているが、それは完全に依存構造(したがって、関節分布)を特徴付けるない、それがあるため、通常のロジスティック確率変数間の混合していません平均と共分散行列によって完全に指定されるプロパティ。潜在的な潜在変数のこの奇妙なパラメトリックな仮定に注目すると、一般的に解釈するのがロジスティックモデルのランダム効果の解釈が不明瞭になります。
前の(優れた)回答で対処されていない重要な点は、実際の推定手順です。多項ロジットモデルには、統合が容易なPDFがあり、選択確率の閉形式表現につながります。正規分布の密度関数はそれほど簡単に統合されないため、通常、プロビットモデルにはシミュレーションが必要です。そのため、両方のモデルは実際の状況の抽象化ですが、通常、大きな問題(複数の選択肢または大きなデータセット)でのロジットの使用は高速です。
これをより明確に見るために、特定の結果が選択される確率は、予測変数と誤差項(Trainに続く)の関数です
プロビットモデルにはこのような便利な形式はありません。
私が言いたいことは、これまでに言われたことを決して無効にしません。プロビットモデルはIIA(無関係な代替の独立性)の仮定に悩まされておらず、ロジットモデルはそうであると指摘したいだけです。
Trainの優れた本の例を使用します。青いバスに乗るか、車で運転するかを予測するロジットがある場合、赤いバスを追加すると、車と青いバスの両方から比例して描画されます。ただし、プロビットモデルを使用すると、この問題を回避できます。本質的に、両方から比例的に描画する代わりに、青のバスはより近い代替品であるため、より多くを描画できます。
あなたが作る犠牲は、上で指摘したように、閉じた形式の解決策がないことです。IIAの問題を心配しているとき、プロビットは私の後藤になりがちです。これは、ロジットフレームワーク(GEVディストリビューション)でIIAを回避する方法がないと言っているわけではありません。しかし、私は常にこの種のモデルを問題を回避する不格好な方法だと考えてきました。あなたが得ることができる計算速度で、私はプロビットで行くと言うでしょう。
「ロジスティック回帰を使用するタイミングとプロビットを使用するタイミング」のみに焦点を当て、統計の詳細には入らず、統計に基づく決定に焦点を当てるという質問に対する実用的な答えを提供します。答えは2つの主なものに依存します:懲戒的な好みがあり、どのモデルがデータにより適しているかだけを気にしますか?
基本的な違い
ロジットモデルとプロビットモデルはどちらも、依存する応答変数が0または1になる確率を与える統計モデルを提供します。違います。
懲戒処分
一部の学問分野は、一般的にどちらか一方を好みます。特定の伝統的な好みで学問分野に結果を公開または提示する場合は、結果がより容易に受け入れられるように選択を指示します。たとえば(Methods Consultantsから)、
Logit –ロジスティック回帰とも呼ばれる–は、係数がオッズ比の観点から解釈できるため、疫学などの健康科学でより人気があります。プロビットモデルは一般化して、より高度な計量経済設定(不均一分散プロビットモデルとして知られている)での一定でないエラー分散を説明できるため、経済学者や政治学者によって一部のコンテキストで使用されます。
ポイントは、結果の違いが非常に小さいため、一般の視聴者が結果を理解する能力は、2つのアプローチのわずかな違いを上回ることです。
あなたが気にかけているすべてがより適しているなら...
あなたの研究がどちらか一方を好まない分野にある場合、この質問(ロジットまたはプロビットが良い)の私の研究は、ほとんど常にそうであるため、一般的にプロビットを使用する方が良いと結論付けましたロジットモデルのデータと同等またはそれ以上の統計的適合をデータに与えます。ロジットモデルがより適切に適合する場合の最も注目すべき例外は、「極端な独立変数」の場合です(これについては以下で説明します)。
私の結論は、ほぼ完全に(他の多くの情報源を検索した後)Hahn、ED&Soyer、R.、2005に基づいています。プロビットモデルとロジットモデル:多変量領域の違い。http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdfで入手できます。以下は、ロジット対プロビット多変量モデルがデータにより適しているかどうかに関するこの記事の実際の決定結論の要約です(これらの結論は単変量モデルにも適用されますが、2つの独立変数の効果のみをシミュレートします)。
ほとんどのシナリオでは、ロジットモデルとプロビットモデルは、次の2つの例外を除き、データに等しく適合します。
「極端な独立変数」の場合、ロジットは間違いなく優れています。これらは独立変数であり、1つの特に大きい値または小さい値が、従属変数が0か1かを圧倒的に頻繁に決定し、他のほとんどの変数の効果を無効にします。HahnとSoyerは、このように正式に定義しています(p。4):
極端な独立変数レベルには、3つのイベントの収束が含まれます。まず、独立変数の上限または下限で極端な独立変数レベルが発生します。たとえば、独立変数xが値1、2、および3.2をとるとします。極端な独立変数レベルには、x = 3.2(またはx = 1)の値が含まれます。第二に、合計nのかなりの割合(たとえば60%)がこのレベルでなければなりません。第三に、このレベルでの成功の確率はそれ自体極端でなければなりません(たとえば、99%以上)。
ハーンとソイヤーの分析に基づいて、私の結論は、極端な独立変数の場合を除き、常にプロビットモデルを使用することです。その場合、ロジットを選択する必要があります。極端な独立変数はそれほど一般的ではなく、非常に簡単に認識できるはずです。この経験則では、モデルがランダム効果モデルであるかどうかは関係ありません。モデルがランダム効果モデルである場合(プロビットが好ましい)、極端な独立変数がある場合(ロジットが好ましい場合)、ハーンとソイヤーはこれについてコメントしていませんが、彼らの記事からの印象は、極端な独立変数がより支配的であるため、ロジットが優先されます。
以下では、プロビットとロジットを特別なケースとしてネストし、どちらがより適切かをテストできる推定器について説明します。
プロビットとロジットの両方を潜在変数モデルにネストできます。
観測されたコンポーネントは
あなたが選択した場合は正規累積分布関数であることを、あなたはロジスティック累積分布関数を選択した場合、あなたはロジットを取得し、プロビットを取得します。いずれにしても、尤度関数は次の形式を取ります。
ただし、どの仮定を立てているか心配な場合は、Klein&Spady(1993; Econometrica)推定量を使用できます。この推定器により、cdf仕様を完全に柔軟にすることができ、その後、正規性またはロジスティック性(?)の妥当性をテストすることもできます。
Klein&Spadyでは、代わりに基準関数は
ここで、は、たとえばNadaraya-Watsonカーネル回帰推定量を使用して推定されるcdfのノンパラメトリック推定です。
ここで、は「カーネル」と呼ばれ(通常、ガウスcdfまたは三角カーネルが選択されます)、は「帯域幅」です。後者のために選択するプラグイン値がありますが、はるかに複雑になる可能性があり、各ステップでが変更されると、に対する外部最適化がより複雑になる可能性があります(はいわゆるバイアス分散トレードオフとバランスをとります)。
改善:市村は、カーネル回帰が番目の観測を除外することを提案しています。そうでない場合、の選択は、サンプルの過剰適合の問題によって複雑になる可能性があります(分散が大きすぎる)。
議論: Klein-Spady推定量の欠点の1つは、極小値にとどまる可能性があることです。これは、 cdfが指定されたパラメータに適応するためです。私はそれを実装しようとし、収束を達成し、数値の問題を回避するのに問題があった何人かの学生を知っています。したがって、それを扱うのは簡単な見積もりではありません。さらに、推定パラメーターの推論は、セミパラメトリック仕様により複雑になります。
それらは非常に似ています。
両方のモデルで、が与えられたの確率は、ランダムな隠れ変数(特定の固定分布)が線形に依存する特定のしきい値を下回る確率と見なすことができます。
または同等に:
そして、それはあなたがの分布のために何を選ぶかという問題です:
分散は、に定数を乗算することにより自動的に補正されるため、重要ではありません。インターセプトを使用する場合も、平均は重要ではありません。
これはしきい値効果と見なすことができます。いくつかの目に見えない結果は、線形回帰のようにノイズ追加された線形関数です。X - S
ロジスティック分布とプロビット分布の違いは、ロジスティック分布と正規分布の違いにあります。そんなに多くはありません。調整すると、次のようになります。
ロジスティックはより重い尾を持っています。これは、小さい(<1%)または高い(> 99%)確率のイベントの適合方法に少し影響を与える可能性があります。実際には、ほとんどの状況で違いは目立ちません。ロジットとプロビットは本質的に同じことを予測します。http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=articleを参照してください
「哲学的に」ロジスティック回帰は、最大エントロピーの原理と同等であることによって正当化できます:http : //www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -エントロピーモデル/
計算に関しては、ロジスティック分布の累積分布は正規分布とは異なり閉じた式を持っているため、ロジスティックはより単純です。しかし、多次元に移行する場合、正規分布には優れた特性があります。これが、プロビットが高度なケースでしばしば好まれる理由です。