あなたは、新しいデータを追加し続けることができる場合(例えばZIPコードすなわち領域としてメインコンセプトに基づく)とモデルのパフォーマンスが向上し、それはもちろん、あなたが唯一の最終的な結果を気に仮定して...許可されています。
赤池情報量基準(AIC)や同等のベイジアン情報量基準(BIC)など、これをガイドするメトリックがあります。これらは基本的に、そのパフォーマンスに基づいてモデルを選択するのに役立ち、導入され、推定する必要があるすべての追加パラメーターに対して罰せられます。AICは次のようになります。
AIC=2k−2ln(L^)
ここで、は推定するパラメーターの数、つまり適用する特徴の数です。ロジスティック回帰では、各パラメーターが1つの係数を持つためです。は最尤法の最大値です(最適スコアに相当)。BICは単にモデルを罰するためにわずかに異なる方法で使用します。kL^k
これらの基準は、より多くのパラメーターを持つモデルを試すことができ、AICまたはBICの値が最も優れているモデルを取るだけなので、いつ停止するかを判断するのに役立ちます。
モデルにZIPに関連しない他の機能がまだある場合、それらは潜在的に圧倒される可能性があります-使用するモデルによって異なります。ただし、家の床面積など、ZIP情報に単純に含めることができないデータセットについても説明する場合があります(これは郵便番号から比較的独立していると想定しています)。
この場合、これらを主成分分析のようなものと比較することができます。この場合、機能のコレクションはデータセットの分散の1つの次元を説明し、他の機能は別のディメンションを説明します。したがって、ZIP関連の機能がいくつあっても、床面積の重要性を説明することはできません。