ロジット関数は、バイナリデータの回帰モデリングに常に最適ですか?


15

私はこの問題について考えてきました。バイナリデータをモデル化するための通常のロジスティック関数は次のとおりです しかしであるロジット関数は、S字カーブ、データをモデル化するため、常に最良のですか?たぶん、あなたはあなたのデータは、通常のS字カーブが、ドメインの曲線の異なる種類従わないと信じるに足る理由持っている01

log(p1p)=β0+β1X1+β2X2+
(0,1)

これに関する研究はありますか?プロビット関数または類似のものとしてモデル化できますが、それがまったく別のものである場合はどうでしょうか?これにより、効果をより正確に推定できますか?ただ考えただけで、これに関する研究はあるのだろうか。



2
@macro完全に重複しているとは思わない。その質問はロジットとプロビットに関するものです。これは他の選択肢も求めています。
ピーターフロム-モニカの復職

私はこれを開いたままにしておくことに投票しています。私が見る主な違いは、このQが異なる可能なリンク機能のトピックに関する統計の研究を求めていることです。それは微妙な違いですが、それで十分かもしれません。@Glen、他のQをまだ見ていなければ、レビューしたいかもしれません。私の答えでは、考えられるさまざまなリンクについて話しています。このQが実際に違うと思わない場合は、フラグを立ててください。MODがそれを閉じることができます。あなたが求めているものとそのQを明確に区別する方法を考えることができるなら、そうするために編集したいかもしれません。
GUNG -復活モニカ

私はそれがロジット対プロビットの質問の正確な複製ではないことを知っていますが、リンクされた質問で尋ねられたものを超えて行くグングの答えは、ここで尋ねられたもののほとんどに対処するため、私は複製として閉じた理由です。おそらく他の密接に関連するスレッドがありますが、それが頭に浮かんだ最初のものです。
マクロ

コメントをありがとう。私の質問は前の質問とは異なると思います。私はプロビットおよびログ-ログ変換に非常に精通しており、前の質問からの議論は私にとって非常に有益でした。ただし、確率曲線が異なる分布に従うことを知っている場合も、知らない場合も、可能な他のリンク関数(おそらくノンパラメトリック?)に興味があります。共変量に相互作用が関与している場合、これが重要な役割を果たす可能性があると思います。@デビッドJ.ハリスの答えは...としても有用である
グレン

回答:


15

人々はあらゆる種類の関数を使用して、データを0〜1に保ちます。モデルを導出するとき、log-oddは数学から自然に外れます(「正規リンク関数」と呼ばれます)が、自由に実験できます他の選択肢。

マクロがあなたの質問に対する彼のコメントで言及したように、一般的な選択肢の1つは、ロジスティック関数の代わりにガウスの分位数関数を使用するプロビットモデルです。また、スチューデントの分布の分位数関数を使用することについて良いことを聞いたことがありますが、試したことはありません。t

これらはすべて同じ基本的なS形状を持っていますが、両端で飽和する速さが異なります。プロビットモデルは0と1に非常に迅速に近づくため、確率が極端に低くなる傾向がある場合は危険です。ベースのモデルは、t分布の自由度に応じて、どちらの方法でも使用できます。アンドリュー・ゲルマン(ほとんど無関係な文脈で)t 7はロジスティック曲線にほぼ似ていると言います。自由度を下げると、テールが太くなり、回帰の中間値の範囲が広がります。自由度が無限になったら、プロビットモデルに戻ります。ttt7

お役に立てれば。

追加して編集:@Macroにリンクされているディスカッションは本当に素晴らしいです。より詳細に興味がある場合は、これを一読することを強くお勧めします。


問題は、「バイナリデータ」に関するものであり、0〜1のデータに関するものではありません。プロビットモデルには、バイナリデータの場合の理論的な正当性はありません。
ニールG

3
@NeilG、プロビットモデルを使用する理由の1つは、しきい値付き法線として多変量バイナリデータ(たとえば、混合モデル)をモデリングする便利な方法を提供することです。その場合、基礎となる変数の相関行列は統計的に識別可能ですが、ロジスティックの場合はそうではありません。ここで少し長い議論があります
マクロ

@マクロ:ああ、なるほど。とても興味深いです、ありがとう。
ニールG

@David J.Harris:あなたは五分位を意味しますか(または分位点は同じ意味を持つかもしれません)、つまり、分布を5分の1のチャンクに分割します:20%、40%、..、100%?
MSIS

1
@MSIS A五分位分割五分のに、任意の単位に1/100にパーセンタイル分割し、四分位分割参照en.wikipedia.org/wiki/Quantile#Specialized_quantilesを
デビッドJ. Harrisの

11

事前に、特定のデータセットに適切なリンク関数がロジットでなければならない理由はわかりません(ただし、宇宙は一般的にはやさしいようです)。これらがあなたが探しているものであるかどうかはわかりませんが、よりエキゾチックなリンク機能を議論するいくつかの論文があります:

開示:この資料をよく知りません。数年前にCauchitとScobitを軽くたたいてみましたが、コードがクラッシュし続けました(おそらく、私は優れたプログラマーではないためです)。作業中のプロジェクトには関係ないようでしたので、削除しました。

このようなもののほとんどは、プロトタイプのリンクとは異なるテールの動作に関係しています(つまり、関数は早期に「角を曲がり」、0と1に非常に速く漸近しない)、または歪んでいます(つまり、cloglogのように、片方の限界にもう一方よりも速く近づく)。また、次のスプライン関数をフィッティングすることにより、これらの動作を再現できるはずです。バツ ロジスティックリンク付き。


4

最善の戦略は、何が起こっているかを考慮してデータをモデル化することです(当然のことです!)

  • プロビットモデルは、LD50の研究に基づいています-虫の半分を殺す殺虫剤が必要です。バイナリ応答は、バグが(特定の線量で)生きるか死ぬかです。1回の線量で影響を受けやすいバグは、より低い線量でも影響を受けやすくなります。これは、累積法線へのモデリングのアイデアが出てくるところです。
  • バイナリ観測値がクラスターになっている場合、ベータ二項モデルを使用できます。Ben Bolkerは、単純なケースでこれを実装するbbmleパッケージ(R)のドキュメントで優れた紹介をしています。これらのモデルにより、二項分布で得られるものよりもデータの変動をより細かく制御できます。
  • 多変量バイナリデータ(多次元分割表にロールアップされる並べ替え)は、対数線形モデルを使用して分析できます。リンク関数は、対数オッズではなく対数です。これをポアソン回帰と呼ぶ人もいます。

これらのモデルに関する研究はおそらくないでしょうが、これらのモデルのいずれか、それらの比較、およびそれらを推定するさまざまな方法に関する研究はたくさんあります。研究者が特定のクラスの問題に対する多くの選択肢を検討し、1つの方法が優れていると思われるため、文献で見つけることはしばらくの間多くの活動があることです。


ベータ二項式の場合は+1。それは、自分のツールボックスにある素晴らしいツールです。
デビッドJ.ハリス

3

ロジットは、入力がそれぞれベルヌーイ分布である専門家の積であるようなモデルです。言い換えると、すべての入力が確率のある独立したベルヌーイ分布であると考える場合p その証拠が組み合わされると、それぞれに適用されるロジスティック関数を追加していることがわかります ps。(別の言い方をすれば、ベルヌーイ分布の期待値パラメーター化から自然パラメーター化への変換がロジスティック関数であるということです。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.