両方のテストは、年齢と反応の関係を暗黙的にモデル化しますが、異なる方法でモデル化します。どちらを選択するかは、その関係をモデル化する方法によって異なります。あなたの選択は、もしあれば、基礎となる理論に依存すべきです。結果からどのような情報を抽出したいか。サンプルの選択方法について。この回答では、これら3つの側面について順番に説明します。
明確に定義された人々の集団を研究しており、サンプルからこの集団への推論を行いたいと想定している言語を使用して、t検定とロジスティック回帰について説明します。
あらゆる種類の統計的推論をサポートするには、サンプルがランダムであると仮定する必要があります。
t検定では、「no」と回答したサンプルの人々は、母集団のすべての非回答者の単純なランダムサンプルであり、「yes」と回答したサンプルの人々は、人口。
t検定では、母集団の2つのグループのそれぞれの年齢の分布に関する追加の技術的な仮定を行います。考えられる可能性を処理するために、t検定のさまざまなバージョンが存在します。
ロジスティック回帰では、特定の年齢のすべての人々が、人口におけるその年齢の人々の単純な無作為標本であると想定しています。年齢層ごとに、「はい」の回答率が異なる場合があります。これらの率は、(オッズ比ではなく)対数オッズとして表される場合、年齢(または年齢のいくつかの決定された関数)と線形関係があると想定されます。
ロジスティック回帰は、年齢と応答の非線形関係に対応するために簡単に拡張できます。このような拡張を使用して、初期線形仮定の妥当性を評価できます。非線形性を表示するのに十分な詳細を提供する大きなデータセットでは実用的ですが、小さなデータセットではあまり役に立たないでしょう。一般的な経験則-回帰モデルにはパラメーターの10倍の観測値が必要です-非線形性を検出するには20を超える観測値が必要であると示唆しています(線形関数の切片と勾配に加えて3番目のパラメーターが必要です) )。
t検定は、平均年齢が母集団の非回答者と回答者の間で異なるかどうかを検出します。ロジスティック回帰分析では、年齢によって回答率がどのように変化するかを推定します。そのため、t検定よりも柔軟性が高く、より詳細な情報を提供できます。一方、グループの平均年齢の差を検出するという基本的な目的では、t検定よりも強力ではない傾向があります。
一対のテストで、有意性と非有意性の4つの組み合わせすべてを示すことができます。これらのうち2つには問題があります。
t検定は重要ではありませんが、ロジスティック回帰は重要です。 両方の検定の仮定が妥当である場合、t検定はロジスティック回帰によって推定されるような特定の関係を検出しようとしないため、このような結果は事実上不可能です。ただし、その関係が十分に非線形であるため、最古の被験者と最年少の被験者が1つの意見を共有し、中年の被験者が別の意見を共有する場合、非線形関係へのロジスティック回帰の拡張は、t検定では検出できない状況を検出および定量化できます。
質問のように、t検定は重要ですが、ロジスティック回帰は重要ではありません。 これは、特に若い回答者のグループ、古い回答者のグループ、およびその間に少数の人がいる場合に特に起こります。これにより、応答なしと応答ありの回答率が大きく分離される場合があります。t検定で簡単に検出されます。ただし、ロジスティック回帰には、年齢とともに応答率が実際にどのように変化するかについての詳細な情報が比較的少ないか、または決定的な情報がありません。ただし、その場合、両方のテストのp値は通常非常に低くなります。
実験計画では、テストの仮定の一部が無効になる可能性があることに注意してください。たとえば、層別設計で年齢に応じて人々を選択した場合、t検定の仮定(各グループは年齢の単純なランダムサンプルを反映している)は疑わしいものになります。この設計では、ロジスティック回帰に依存することをお勧めします。代わりに、応答者なしと応答者の2つのプールがあり、年齢を確認するためにそれらからランダムに選択された場合、ロジスティック回帰のサンプリングの仮定は疑わしいが、t検定のサンプリングは保持されます。その設計では、何らかの形のt検定を使用することをお勧めします。
(2番目のデザインはここではばかげているように見えるかもしれませんが、「年齢」を測定するのが難しく、費用がかかり、または時間がかかるいくつかの特性に置き換えられる状況では魅力的です。)