ロジスティック回帰と変曲点


12

バイナリの結果といくつかの共変量のデータがあります。ロジスティック回帰を使用してデータをモデル化しました。単純な分析だけで、異常なことは何もありません。最終出力は、特定の共変量に対して確率がどのように変化するかを示す用量反応曲線であると想定されています。このようなもの:

ここに画像の説明を入力してください

ロジスティック回帰を選択したことについて、(純粋な統計家ではなく)内部のレビューアからいくつかの批判を受けました。ロジスティック回帰は、確率スケールでのS字型曲線の変曲点が確率0.5であると想定(または定義)します。彼は、変曲点が確かに確率0.5であると仮定する理由はないと主張し、実際の位置がデータに基づくように変曲点を変化させることができる別の回帰モデルを選択する必要があります。

私はこの点について考えたことがないので、最初は彼の議論に油断しました。変曲点が0.5であると仮定することが正当化される理由について、私は何の議論もしませんでした。いくつかの調査を行った後、私はまだこの質問に対する答えがありません。

変曲点が追加のパラメーターである5パラメーターロジスティック回帰に出くわしましたが、この回帰モデルは通常、連続的な結果を伴う用量反応曲線を作成するときに使用されているようです。バイナリ応答変数に拡張できるかどうか、またどのように拡張できるかはわかりません。

私の主な質問は、ロジスティック回帰の変曲点が0.5であると仮定してよいのはなぜですか?それも重要ですか?ロジスティック回帰モデルをフィッティングして、変曲点の問題を明確に議論する人を見たことがありません。変曲点が必ずしも0.5とは限らない線量応答曲線を作成するための代替手段はありますか?

完全を期すために、上の図を生成するためのRコード:

dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")

編集1:

Scortchiがコメントの1つで言ったことに追加するだけです。レビューアは確かに生物学的には曲率の変化が0.5よりも早く発生する可能性が高いと主張しました。したがって、変曲点が0.5であると仮定することに対する彼の抵抗。

編集2:

フランク・ハレルのコメントへの反応として:

例として、2次項と3次項を含むように上記のモデルを変更しましたgre(この例では「線量」です)。

logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+  gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")

ここに画像の説明を入力してください

greこの場合、2次および3次の項を追加することはおそらく意味がないという事実にもかかわらず、用量反応曲線の形が変化していることがわかります。実際、約0.25と0.7付近に2つの変曲点があります。


2
これは、予測子と応答の対数オッズとの非線形関係を調査することを求めるのと同じではありませんか?
Scortchi-モニカの回復

回答:


8

@scortchiが触れたように、査読者はロジスティック回帰のコンテキストでロジットスケールで予測子の非線形効果をモデル化することは不可能であるという誤った印象の下で作業していました。元のモデルは、すべての予測子の線形性をすぐに想定していました。たとえば制限付き3次スプライン(自然スプライン)を使用して線形性の仮定を緩和することにより、曲線の形状全体が柔軟になり、変曲点は問題ではなくなります。単一の予測子があり、それが回帰スプラインを使用して拡張されていた場合、ロジスティックモデルは観測の平滑性と独立性の仮定のみを行うと言えます。


私はスプライン回帰にあまり詳しくないことを認めざるを得ません。これをロジスティック回帰(Rで)と一緒に行うことについてどうしたらよいでしょうか。元の投稿(編集2)を変更して、多項式項を予測子に含めました。これをスプラインスムージングの代わりに使用できますか?もちろん、スプラインの場合と同じ柔軟性はありません。
フランシス

1
@フランコ:フランク・ハレル自身の回帰モデリング戦略- ウェブサイトRパッケージ -があなたを先導するはずです。ここでは、回帰スプラインのいくつかの利点について簡単に説明します。もちろん、多項式が代替手段であるというのは当然です。
Scortchi-モニカの回復

4

レビュー担当者は何か言いたいことを探していたようです。暗黙の変曲点のような仕様のそのような機能を調べる前に、推定可能なモデルに到達するために、私たちが行ったたくさんの仮定があります。すべてが疑問視され、議論される可能性があります-ロジスティック関数自体の使用が考えられる主要なターゲットです:根底にあるエラー項の条件付き分布はロジスティックであると誰が私たちに言ったのですか?だれも。

だから問題は:曲率の変化は何を意味するのか?調査中の現実世界の現象にとってどれほど重要であるかは、この曲率の変化が発生するポイントである可能性があるため、「データ駆動型」にすることを検討しますか?節約の原則からさらに離れていますか?

問題は、「変曲点を0.5にすべき理由」ではありません。しかし、「0.5のままにしておくと、結論にどの程度の誤解を与える可能性があるのでしょうか」。


2
それは少し無慈悲に思えます。私たちは、査読者がこの仮定に異議を唱える可能性のある人ではなく、この仮説に異議を唱える正当な理由がないことを知りません。変曲点に関してそれを置く奇妙な方法、そしてロジスティック回帰についての考えられる誤解を片側に残してください、そして彼はモデルがなぜカーブをシフトさせて伸ばすが曲げないのかを基本的に尋ねています、それは答えに値するでしょう。
Scortchi-モニカの回復

@Scortchi "それを置く奇妙な方法" ... "ロジスティック回帰についての考えられる誤解" ...これが査読者の批評を合理化するために必要なものである場合、彼は結局、論文をレビューすべきではありませんでした。
Alecos Papadopoulos 2013

1
@Scortchiと同様に、これは少し鋭すぎると思います。ここでよりアクティブな人々の多くは、主流の統計ではなく、さまざまな科学のバックグラウンドを持っています。純粋であろうとなかろうと、統計学者であることは、良いアドバイスをするために不可欠でも十分でもありません(ほとんどすべての場合、明らかに役立つでしょうが)。
Nick Cox

@Nick Cox私は「鋭さ」を受け入れ、コンセンサスのしるしとして最後の文を削除しました。私のポイントは、モデルの仮定に価値がない一般的な方法で質問することです-モデルは常に偽です。したがって、曲率が変化する確率が調査中の現実世界の現象にとってどういうわけか重要である場合、レビュアーはこの点がデータ駆動型になることを確かに尋ねるのは非常に正しかったです。しかし、査読者が「p = 0.5でなぜ他の場所ではないのか」とコメントした場合、このコメントは建設的ではありません。
Alecos Papadopoulos 2013

2
これをありがとう。私はあなたの一般的なスタンスに同意します:(a)さまざまなアプローチのメリットの議論と(b)それらをどのように議論すべきかについての議論はどちらも公正なゲームです。対照的に、個人やグループについてのコメントは、通常は役に立ちません(ただし、私も時々憤慨の境界線を越えています...)。
Nick Cox

0

モーでは、ロジット回帰は用量反応の合理的な選択です。もちろん、probit、log-log、c-log-logリンクを使用して、適合度(DEV、BIC、CAICなど)を比較できます。しかし、最も単純なロジット回帰は、変曲点LD50 = -b0 / b1の快適な公式評価を提供します。これは特定のポイントであり、最小の不確実性が得られることを思い出します(LD16、LD84などを参照してください。その他のCIの方が広くなります。Finneyの「プロビット分析」、1947、1977を参照してください)。私の経験では、常に(?)線量の対数を使用してから、元のスケールで95%CIを変換する方がよかったです。モデルの他の共変量の性質は何ですか?マルチモデルアプローチを使用する可能性について言及しています...確かにスプラインは柔軟ですが、正式なパラメトリックはより簡単に解釈されます!

http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htmを参照してください


0

0.5変曲点は、大きな問題の一部です。ロジスティック方程式は、対称構造です。そして、それのほとんどの派生において、モデル化された効果は対称的である理由があります。たとえば、一方のプレイヤーが勝つと、もう一方のプレイヤーが負けるか、飽和の原因となる効果が、初期の成長の原因となる物理的効果と同じになります。右手が振る舞う、またはその他の理由で問題が対称的である場合は、正当な理由があります。

そうでない場合、おそらく次に最も簡単なモデルは、一般化されたロジスティック方程式です。パラメータが多いため、制約を追加して、すべてが自由なパラメータではないようにすることができます。最初の導関数が前後に振動している棚を追加しているため、これは追加したクラッジよりもおそらく望ましいでしょう-このようなことは、これの期待値を最適化しようとすると、局所平衡の架空の偽点を作成する傾向があります分布。一般化形式は対称性を壊しますが、スムーズな方法です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.