決定しきい値は、予測する正の数と予測する負の数の間のトレードオフを作成します。これは、トートロジー的に、決定しきい値を大きくすると、予測する正の数が減少し、負の数が増加するためです。予測します。
決定閾値があるではない、それは変更されませんので、モデルチューニングの意味でのハイパーパラメータの柔軟性モデルのを。
決定しきい値のコンテキストでの「調整」という言葉についての考え方は、ハイパーパラメーターの調整方法とは異なります。変更Cや他のモデルのハイパーパラメータは変更したモデルを(たとえば、ロジスティック回帰係数は異なります)、しきい値の調整は2つのことしか行えません:TPをFNに、FPをTNにトレードオフします。ただし、これは係数を変更しないため、モデルは同じままです。(ランダムフォレストなど、係数を持たないモデルにも同じことが言えます。しきい値を変更しても、ツリーについては何も変わりません。)狭い意味で、エラー間の最適なトレードオフを見つけることは正しいことです。は「チューニング」ですが、しきい値の変更はによって最適化された方法で他のモデルハイパーパラメーターにリンクされると考えるのは間違っていますGridSearchCV
。
別の言い方をすれば、決定のしきい値を変更すると、必要な誤検知と誤検知の数に関する選択が反映されます。決定しきい値を-1のような完全に信じがたい値に設定したと仮定してください。すべての確率は負ではないため、このしきい値を使用すると、すべての観測について「正」を予測できます。ある特定の観点からは、これは素晴らしいことです。なぜなら、偽陰性率は0.0だからです。ただし、誤検知率も1.0の極値であるため、その意味で、-1でのしきい値の選択はひどいです。
もちろん、理想は、TPRが1.0、FPRが0.0、FNRが0.0であることです。しかし、これは通常、実世界のアプリケーションでは不可能であるため、質問は「どれだけのFPRに対してどれだけのFPRを受け入れますか?」になります。そして、これがroc曲線の動機です。