回答:
ロジスティック回帰(および他の多くの方法)で使用される最適性基準は、尤度関数です。推定するために使用される複数含む 1表す、二次立方、及び区分的多項式(スプライン)の適合を達成することを。競合する変換の中から選択するためにも使用できますが、選択する行為は情報マトリックスに反映されないため、結果の分散が小さすぎるため、信頼区間に指定されたカバレッジ確率がありません。変換推定をモデルフィッティングの明示的な目標にすると(そして回帰スプラインはこれを行う優れた方法です)、統計的推論のすべての側面を保持します。サンプルサイズによっては、3つのパラメーターを必要とする4ノットの制限付き(両方の尾が線形)の3次スプラインが適しています。
rms
lrm
いいえ、線形モデルでは、従属変数との相関が最大になるように変換は行われません(または行われません)。これは、a)残差に関するモデルの仮定を満たすか、b)より賢明な説明変数を使用するために行う必要があります。つまり、実質的に意味のあるものです。@Andyが指摘しているように、これでは不十分な場合があります。しかし、その場合は、奇妙な変換を行うのではなく、別の回帰方法(以下を参照)を探します。たとえば、ようなモデルは説明するのがです。
ロジスティック回帰では(少なくとも、二項ロジスティックでは)仮定が少なく(そして、私が知る限り、残差については何もありません)、b)のみが適用されます。
線形モデルであっても、b)を使用することをお勧めします。そして、仮定が満たされない場合は、他の形式の回帰を使用します(ロバスト回帰である可能性があり、スプラインモデルである可能性があり、多項式である可能性があります)。
have a more sensible explanatory variable
は非常にあいまいであり、拡張する必要があります。私は通常、それを回帰係数のより簡単な解釈を可能にする変換と見なしますが、それは明らかにそれ自体では十分ではありません(OLSまたはロジスティック回帰の場合)。
一般化線形モデリングでは、最小化される数学的測定値は「偏差」と呼ばれます(-2 * log尤度)。開発可能な残差にはいくつかの種類があります。「偏差残差」は、適度に複雑な式の個々の項です。カテゴリー変数に適用すると、これらは最も理解しやすいと思います。ロジスティック回帰を使用するカテゴリ変数の場合、これらはlog-odds(model)とlog-odds(data)の違いにすぎませんが、連続変数の場合はやや複雑になります。逸脱度の残差は、反復プロセスで最小化されるものです。逸脱度の残差の素敵なプロットについては、UCLA Webサイトでこの説明を参照してください。
「リフト」の分析は、対数オッズやオッズのスケールや尤度ではなく、確率のスケールで行われているように見えます。フランク・ハレルはいくつかのアドバイスを提供しており、フランクと私との間の認められた論争はフランクの意見の大規模な重み付けによって解決されるべきであることがわかります。(私のアドバイスは、フランクのRMSブックを購入することです。)彼がペナルティ付きの方法を検討するためのアドバイスを提供していなかったこと、そして彼が過剰適合に対して警告を出していないことに驚いています。「リフト」を最大化したという理由だけで変換を選択することは、「精度」を最大化したモデルを選択することに似ていると思います。私は彼がその戦略を支持していないことを知っています。