ロジスティック回帰またはT検定?


17

人のグループが1つの質問に答えます。答えは「はい」または「いいえ」です。研究者は、年齢が回答のタイプに関連しているかどうかを知りたいと考えています。

この関係は、年齢が説明変数であり、回答のタイプ(yes、no)が従属変数であるロジスティック回帰を行うことにより評価されました。それぞれ「はい」および「いいえ」と答えたグループの平均年齢を計算し、平均を比較するためにT検定を実施することにより、個別に対処しました。

両方のテストは異なる人のアドバイスに従って実行されましたが、どちらも正しい方法であるかどうかはわかりません。研究の質問を考慮して、より良いテストはどれですか?

仮説検定では、p値は有意(回帰)および有意(T検定)ではありませんでした。サンプルは20ケース未満です。


2
これがあなたの本当の質問かどうかはわかりません。あなたはすでにあなたが尋ねている分析の両方を実行しました。あなたが本当に知りたいのは、これらのテストの比較やそれらのテスト間の関係についての何かであると推測しています。質問を編集して修正してください。
ジョン

両方のテストは、さまざまな人のアドバイスに従って実行されましたが、これが正しい方法であるかどうかは確実ではありません。より良いテストである研究の質問(年齢は回答のタイプに関連付けられていますか?)、または年齢に関する回答のタイプのロジスティック回帰、または「はい」と回答した人の平均年齢と平均を比較するT検定の観点から「いいえ」と答えた人の年齢は?
グウェン

回答:


19

両方のテストは、年齢と反応の関係を暗黙的にモデル化しますが、異なる方法でモデル化します。どちらを選択するかは、その関係をモデル化する方法によって異なります。あなたの選択は、もしあれば、基礎となる理論に依存すべきです。結果からどのような情報を抽出したいか。サンプルの選択方法について。この回答では、これら3つの側面について順番に説明します。


明確に定義された人々の集団を研究しており、サンプルからこの集団への推論を行いたいと想定している言語を使用して、t検定とロジスティック回帰について説明します。

あらゆる種類の統計的推論をサポートするには、サンプルがランダムであると仮定する必要があります。

  • t検定では、「no」と回答したサンプルの人々は、母集団のすべての非回答者の単純なランダムサンプルであり、「yes」と回答したサンプルの人々は、人口。

    t検定では、母集団の2つのグループのそれぞれの年齢の分布に関する追加の技術的な仮定を行います。考えられる可能性を処理するために、t検定のさまざまなバージョンが存在します。

  • ロジスティック回帰では、特定の年齢のすべての人々が、人口におけるその年齢の人々の単純な無作為標本であると想定しています。年齢層ごとに、「はい」の回答率が異なる場合があります。これらの率は、(オッズ比ではなく)対数オッズとして表される場合、年齢(または年齢のいくつかの決定された関数)と線形関係があると想定されます。

    ロジスティック回帰は、年齢と応答の非線形関係に対応するために簡単に拡張できます。このような拡張を使用して、初期線形仮定の妥当性を評価できます。非線形性を表示するのに十分な詳細を提供する大きなデータセットでは実用的ですが、小さなデータセットではあまり役に立たないでしょう。一般的な経験則-回帰モデルにはパラメーターの10倍の観測値が必要です-非線形性を検出するには20を超える観測値が必要であると示唆しています(線形関数の切片と勾配に加えて3番目のパラメーターが必要です) )。

t検定は、平均年齢が母集団の非回答者と回答者の間で異なるかどうかを検出します。ロジスティック回帰分析では、年齢によって回答率がどのように変化するかを推定します。そのため、t検定よりも柔軟性が高く、より詳細な情報を提供できます。一方、グループの平均年齢の差を検出するという基本的な目的では、t検定よりも強力ではない傾向があります。

一対のテストで、有意性と非有意性の4つの組み合わせすべてを示すことができます。これらのうち2つには問題があります。

  • t検定は重要ではありませんが、ロジスティック回帰は重要です。 両方の検定の仮定が妥当である場合、t検定はロジスティック回帰によって推定されるような特定の関係を検出しようとしないため、このような結果は事実上不可能です。ただし、その関係が十分に非線形であるため、最古の被験者と最年少の被験者が1つの意見を共有し、中年の被験者が別の意見を共有する場合、非線形関係へのロジスティック回帰の拡張は、t検定では検出できない状況を検出および定量化できます。

  • 質問のように、t検定は重要ですが、ロジスティック回帰は重要ではありません。 これは、特に若い回答者のグループ、古い回答者のグループ、およびその間に少数の人がいる場合に特に起こります。これにより、応答なしと応答ありの回答率が大きく分離される場合があります。t検定で簡単に検出されます。ただし、ロジスティック回帰には、年齢とともに応答率が実際にどのように変化するかについての詳細な情報が比較的少ないか、または決定的な情報がありません。ただし、その場合、両方のテストのp値は通常非常に低くなります。

実験計画では、テストの仮定の一部が無効になる可能性があることに注意してください。たとえば、層別設計で年齢に応じて人々を選択した場合、t検定の仮定(各グループは年齢の単純なランダムサンプルを反映している)は疑わしいものになります。この設計では、ロジスティック回帰に依存することをお勧めします。代わりに、応答者なしと応答者の2つのプールがあり、年齢を確認するためにそれらからランダムに選択された場合、ロジスティック回帰のサンプリングの仮定は疑わしいが、t検定のサンプリングは保持されます。その設計では、何らかの形のt検定を使用することをお勧めします。

(2番目のデザインはここではばかげているように見えるかもしれませんが、「年齢」を測定するのが難しく、費用がかかり、または時間がかかるいくつかの特性に置き換えられる状況では魅力的です。)


年齢変数にスプラインを使用することで、非線形性と分離に関する懸念のほとんどが軽減されないでしょうか?そのことについては、申し訳ありませんが、「プールされた」設計がロジスティック回帰の結果を無効にする理由がわかりません。確かに、ランダムサンプルの仮定はなくなりましたが、この設計を選択することを考えると気にしますか?選択バイアスをほのめかしていますか?(当然1)(...あなたが記述デザインは私には症例対照研究のように思えるが、私は間違っているかもしれない)
usεr11852が復活モニック言う

@usεr11852思慮深いコメントありがとうございます。私はあなたが持ち出すポイントを明確にするためにいくつかの文章を書き直しました。年齢をスプラインするとロジスティック回帰の非線形性に対処できますが、完全な分離の可能性が高まります。「プールされた設計」の意味がわかりませんが、確率モデルを正当化できないロジスティック回帰のp値(ランダムサンプリングによって可能になること)を解釈する努力には疑い​​があります。
whuber

これらをありがとう。はい、完全な分離(Hauck-Donner効果)についてあなたが指摘した点に完全に感謝しますが、それらは考慮しませんでした。わかりました、2つのプールについてのあなたの意味がわかりました。我々はそれのための制御への道(傾向スコアなど)のためのオフ・バットを見なければならないので、その場合は、私たちは(私たちは二つのプールを定義/観察)合意された観察研究のコンセプトを持っているでしょう
usεr11852が復活モニック言う

5

tバツY

バツ|Y=Nμσ2
YベルヌーイpYバツ=バツ
P(Y=1|X=x)=fX|Y=1(x)P(Y=1)i=01fX|Y=i(x)P(Y=i)=pe12σ2(xμ1)2pe12σ2(xμ1)2+(1p)e12σ2(xμ0)2=11+1ppe12σ2(xμ0)2+12σ2(xμ1)2=logit1(β0+β1x)
that is, a logistic regression model with intercept and slope
β0=lnp1p12σ2(μ12μ02)β1=1σ2(μ1μ0).

So in this sense the two conditional models are compatible.


3

The better test is the the one that better addresses your question. Neither is just better on it's face. The differences here are equivalent to those found when regressing y on x and x on y and the reasons for different results are similar. The variance being assessed depends on which variable is being treated as the response variable in the model.

Your research question is terribly vague. Perhaps if you considered direction of causality you'd be able to come to a conclusion about which analysis you want to use. Is age causing people to respond "yes" or is responding "yes" causing people to get older? It's more likely the former, in which case the variance in the probability of a "yes" is what you wish to model and therefore the logistic regression is the best choice.

That said, you should examine assumptions of the tests. Those can be found online at wikipedia or in your text books on them. It may well be that you have good reasons not to perform the logistic regression and, when that happens you may need to ask a different question.


1
Do you mean "not to perform the logistic regression"?
mark999
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.