いくつかのロジスティック回帰を使用しており、平均推定確率は常にサンプル内の確率の割合に等しいことがわかりました。つまり、近似値の平均はサンプルの平均に等しくなります。
誰かが私に理由を説明したり、このデモを見つけることができる参照を教えてもらえますか?
いくつかのロジスティック回帰を使用しており、平均推定確率は常にサンプル内の確率の割合に等しいことがわかりました。つまり、近似値の平均はサンプルの平均に等しくなります。
誰かが私に理由を説明したり、このデモを見つけることができる参照を教えてもらえますか?
回答:
観察している動作は、ロジスティック回帰の「典型的な」ケースですが、常に正しいとは限りません。また、はるかに一般性があります(以下を参照)。これは、3つの別個の事実が合流した結果です。
上記のいずれかが存在しない場合、一般に、平均推定確率はサンプル内の確率の割合と一致しません。
ただし、(ほぼ)すべての統計ソフトウェアはそのようなモデルに最尤推定を使用するため、実際には、項目1と2は本質的に常に存在し、特別な場合を除き、項目3は通常存在します。
いくつかの詳細
これで、各観測値に対する予測子のベクトルられ、上記の事実1から、ロジスティック回帰モデルは パラメータの未知のベクトル。注:これを再配置すると、ます。
最尤法を使用してモデルに適合させると(事実2)、を考慮することで解く方程式のセットが得られ。ことを観察 対数オッズと予測子の間に想定される線形関係を使用します。これは、MLEは 変換の下で不変であるため、MLEは満たすことを意味 します。したがって、この場合。
ファクト3を使用すると、のコンポーネントがすべてのに対して常に1である場合、であるため、正の応答の経験的割合は適合確率の平均。
シミュレーション
インターセプトを含めることが重要です。モデルに切片が存在しない場合、観察された動作が発生しない可能性があることを示すためのの例を次に示します。
x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )
一般的な場合:としては、平均応答が平均予測平均がのクラスの非常に大きいの一般性に保持するに等しいことを、上記の性質を示唆したモデル線形一般用いて、最大尤度により適合正規リンク機能を、およびで切片を含みますモデル。
参照資料
関連する理論の良い参考文献は次のとおりです。