ロジスティック回帰に関する哲学的質問:最適なしきい値がトレーニングされないのはなぜですか?


13

通常、ロジスティック回帰では、モデルを近似し、トレーニングセットでいくつかの予測を取得します。次に、これらのトレーニング予測(こちらのようなもの)を相互検証し、ROC曲線のようなものに基づいて最適なしきい値を決定します。

しきい値の交差検証を実際のモデルに組み込んで、全体をエンドツーエンドでトレーニングしてみませんか?

回答:


19

ロジスティック回帰は分類子ではないため、しきい値はモデルでトレーニングされません(なぜロジスティック回帰がロジスティック分類と呼ばれないのですか?)。ベルヌーイ分布の振る舞いを支配するパラメーターを推定するモデルです。つまり、共変量を条件とする応答分布はベルヌーイであると想定しているため、その変数を制御するパラメーターが共変量の関数としてどのように変化するかを推定したいとします。それは直接確率モデルのみです。もちろん、その後分類器として使用でき、特定のコンテキストで使用されることもありますが、それでも確率モデルです。 p


1
さて、私は理論のその部分を理解しています(その雄弁な説明をありがとう!)が、なぜ分類の側面をモデルに組み込むことができないのですか?つまり、なぜpを見つけてからしきい値を見つけて、全体をエンドツーエンドでトレーニングして損失を最小限に抑えることができないのですか?
StatsSorceress

4
確かにできました(@Sycoraxの答えはその可能性を物語っています)。しかし、それはLR自体ではなく、アドホックな拡張であるため、完全な最適化スキームを自分でコーディングする必要があります。ところで、フランク・ハレルは、このプロセスが多くの基準で劣等モデルと見なされるものにつながると指摘していることに注意してください。
GUNG -復活モニカ

1
うーん。関連する質問受け入れられた答えをここで読んで、理論的には同意しますが、機械学習分類アプリケーションでは、相対エラータイプを気にせず、単に「正しい分類」に気をつけます。その場合、私が説明しているように、エンドツーエンドでトレーニングできますか?
StatsSorceress

4
前述したように、モデルをトレーニングし、同時にしきい値を選択する独自のカスタム最適化を設定できます。あなたは自分でそれをしなければなりません、そして最終的なモデルはほとんどの標準により貧弱である可能性が高いです。
GUNG -復活モニカ

1
@StatsSorceress「...機械学習の分類で時々...」。時には大きな強調があるはずです。正確さが正解であるプロジェクトを想像するのは困難です。私の経験では、それは常に少数民族の正確さと想起を伴います。
ウェイン

14

最適なしきい値は、真の陽性率(TPR)、偽陽性率(FPR)、精度などの関数ではないためです。もう1つの重要な要素は、正しい決定と間違った決定のコストと見返りです。

標的が普通の風邪である場合、陽性検査に対するあなたの反応は2つのアスピリンを処方することであり、真の未治療陽性の費用は不必要な2日間の頭痛の種であり、最適な決定(分類ではありません!)標的が生命を脅かす病気であり、(a)虫垂切除のような比較的簡単な手順、または(b)数ヶ月の化学療法のような主要な介入である場合とは異なります!ターゲット変数はバイナリ(病気/健康)かもしれませんが、あなたの決定はより多くの値を持っているかもしれないことに注意してください(2つのアスピリンで家に帰る/より多くのテストを実行する/病院に入院し、すぐに見る/操作する)。

結論:コスト構造とさまざまな決定をすべて知っている場合、確率的分類または予測を含む意思決定支援システム(DSS)を直接トレーニングできます。ただし、しきい値を使用して予測や分類を離散化することは、これを行う正しい方法ではないと強く主張します。

以前の「分類確率しきい値」スレッドに対する私の回答も参照してください。または私のこの答え。またはその1つ


4

哲学的な懸念はさておき、これは計算上の困難を引き起こすでしょう。

理由は、連続出力の関数は比較的簡単に最適化できるからです。関数が増加する方向を探して、その方向に進みます。「カットオフ」ステップを含むように損失関数を変更すると、出力は離散的になり、したがって損失関数も離散になります。ロジスティック関数のパラメーターを「少し」変更し、カットオフ値を「少し」変更すると、損失は同じ値になり、最適化が難しくなります。もちろん、それは不可能ではありません(離散最適化にはすべての研究分野があります)が、連続最適化は断然です多くのパラメータを最適化するときに解決しやすい問題。便利なことに、ロジスティックモデルが適合した後、最適なカットオフを見つけることは、依然として離散出力問題ですが、1つの変数でのみ可能であり、1つの変数で完全に実行可能なグリッド検索などを行うことができます。


3

基礎となるモデルに関係なく、TPRおよびFPRのサンプリング分布をしきい値で計算できます。これは、TPRとFPRの変動をあるしきい値で特徴付けることができ、望ましいエラーレートのトレードオフに戻ることができることを意味します。

ROC曲線は、ユーザーが制御するのはしきい値のみであるため、少し欺de的ですが、プロットにはしきい値の関数であるTPRとFPRが表示されます。さらに、TPRとFPRは両方とも統計であるため、ランダムサンプリングの変動の影響を受けます。これは、手順を(クロス検証などにより)繰り返す場合、特定のしきい値で異なるFPRとTPRを思いつくことができることを意味します。

ただし、TPRとFPRの変動を推定できる場合は、ROC手順を繰り返す必要はありません。信頼区間(ある程度の幅)のエンドポイントが受け入れられるようなしきい値を選択するだけです。つまり、FPRが研究者が指定した最大値を下回る可能性が高く、かつ/またはTPRが研究者が指定した最小値を超過する可能性があるようにモデルを選択します。モデルが目標を達成できない場合、より良いモデルを構築する必要があります。

もちろん、TPRとFPRの値が使用上許容されるものは、コンテキストに依存します。

詳細については 、Wojtek J. KrzanowskiおよびDavid J. Handによる連続データのROC曲線を参照してください。


これは本当に私の質問に答えるものではありませんが、ROC曲線の非常に良い説明です。
-StatsSorceress

これはあなたの質問にどのように答えないのですか?分類のしきい値を選択する方法について尋ねない場合、あなたの質問は何ですか?
シコラックスは、モニカの復活を

2
私はそのように機能する統計的手順を知りません。この四角いホイールが良いアイデアなのはなぜですか?どのような問題を解決しますか?
Sycoraxが復活モニカ言う

1
「トレーニング時間を短縮する方法でしきい値を選択するにはどうすればよいですか?」元の投稿の質問とは非常に異なる質問のようです。
シコラックスは、モニカを

1
とにかく、これが時間を節約する方法がわかりません。ROC曲線を作成することは、モデルを推定する上で最も費用のかかる部分ではないため、しきい値の選択を最適化ステップに移動することは、アドホックで不要なようです。
シコラックスは、モニカの復活を

-2

通常、生物医学研究では、トレーニングセットを使用しません---完全なデータセットにロジスティック回帰を適用して、どの予測変数が結果の重要なリスク要因であるかを確認します。または、結果に対する他の可能な予測子の影響を制御しながら、関心のある予測子を調べます。
しきい値の意味がよくわかりませんが、最適化しようとするさまざまなパラメーターがあります:AUC、連続予測変数を二分するためのカットオフ値、正および負の予測値、信頼区間、p値、偽陽性および偽陰性率。ロジスティック回帰は、被験者の母集団を調べ、その母集団の関心の結果に寄与する危険因子の強度と原因の方向を評価します。つまり、「逆に実行する」ことも可能です。つまり、個人が持つリスク要因を考慮して、結果の個人のリスクを判断することも可能です。ロジスティック回帰では、個々のリスク要因に基づいて各個人に結果のリスクが割り当てられ、デフォルトでは0.5です。被験者の場合 s(モデル内のすべてのデータと被験者に基づく)結果が得られる確率は0.5以上であり、結果が得られると予測します。0.5未満の場合、彼は予測しません。ただし、このカットオフレベルを調整することで、たとえば、モデルによって予測される誤検出が増えるという犠牲を払うにもかかわらず、結果が出るリスクのある個人にフラグを立てることができます。このカットオフレベルを調整して、スクリーニングの決定を最適化し、どの医療従事者にさらなる医学的フォローアップを勧めるかなどを予測できます。ロジスティック回帰モデルに基づいたスクリーニングテストのために、陽性的中率、陰性的中率、および偽陰性率と偽陽性率を構築します。データセットの半分でモデルを開発し、残りの半分でテストできますが、本当にする必要があります(そうすると、「トレーニング」データが半分になり、モデル内の重要な予測変数を見つける能力が低下します)。そのため、「すべてをエンドツーエンドでトレーニングする」ことができます。もちろん、生物医学研究では、結果をより広い母集団に一般化できると言う前に、別の母集団、別のデータセットで検証する必要があります。別のアプローチは、ブートストラッピングタイプのアプローチを使用して、調査母集団のサブサンプルでモデルを実行し、それらの被験者をプールに戻し、別のサンプルで何度も(通常1000回)繰り返すことです。規定の過半数(たとえば95%の時間)で重要な結果が得られた場合、少なくとも自分のデータでモデルが検証されたと見なされます。しかし、繰り返しますが、モデルを実行する調査母集団が小さいほど、一部の予測変数が結果の統計的に有意なリスク要因になる可能性は低くなります。これは、参加者の数が限られている生物医学研究に特に当てはまります。
データの半分を使用してモデルを「トレーニング」し、残りの半分で「検証」することは不必要な負担です。t検定や線形回帰ではそうしないので、なぜロジスティック回帰でそれを行うのですか?ほとんどの場合、「はい、うまくいきます」と言うことができますが、完全なデータセットを使用する場合は、とにかくそれを決定します。データをより小さなデータセットに分割すると、サンプルサイズが小さく、研究サイズに対して予測因子が多すぎるため、実際に存在する場合、研究母集団(または検証母集団)の重要なリスク要因を検出しないリスクが発生します。あなたの「検証サンプル」は偶然から関連性を示さないことを。「訓練して検証する」アプローチの背後にあるロジックは、重要だと特定したリスク要因が十分に強くない場合、ランダムに選択したデータの半分でモデル化した場合、統計的に有意ではなくなります。しかし、そのランダムに選択されたサンプルは、偶然に関連性を示さないか、または統計的に有意であるために危険因子にとって小さすぎるために起こるかもしれません。ただし、重要度を決定するのはリスク要因の大きさとその統計的有意性であり、そのため、モデルを構築するには完全なデータセットを使用するのが最善です。統計的有意性は、ほとんどの統計的検定と同様に、サンプルサイズが小さいほど重要性が低くなります。ロジスティック回帰を行うことは、統計科学とほとんど同じくらい芸術です。研究デザインに応じて、使用するさまざまなアプローチと最適化するさまざまなパラメーターがあります。tランダムに選択したデータの半分でモデル化した場合、統計的に有意です。しかし、そのランダムに選択されたサンプルは、偶然に関連性を示さないか、または統計的に有意であるために危険因子にとって小さすぎるために起こるかもしれません。ただし、重要度を決定するのはリスク要因の大きさとその統計的有意性であり、そのため、モデルを構築するには完全なデータセットを使用するのが最善です。統計的有意性は、ほとんどの統計的検定と同様に、サンプルサイズが小さいほど重要性が低くなります。ロジスティック回帰を行うことは、統計科学とほとんど同じくらい芸術です。研究デザインに応じて、使用するさまざまなアプローチと最適化するさまざまなパラメーターがあります。tランダムに選択したデータの半分でモデル化した場合、統計的に有意です。しかし、そのランダムに選択されたサンプルは、偶然に関連性を示さないか、または統計的に有意であるために危険因子にとって小さすぎるために起こるかもしれません。ただし、重要度を決定するのはリスク要因の大きさとその統計的有意性であり、そのため、モデルを構築するには完全なデータセットを使用するのが最善です。統計的有意性は、ほとんどの統計的検定と同様に、サンプルサイズが小さいほど重要性が低くなります。ロジスティック回帰を行うことは、統計科学とほとんど同じくらい芸術です。研究デザインに応じて、使用するさまざまなアプローチと最適化するさまざまなパラメーターがあります。しかし、そのランダムに選択されたサンプルは、偶然に関連性を示さないか、または統計的に有意であるために危険因子にとって小さすぎるために起こるかもしれません。ただし、重要度を決定するのはリスク要因の大きさとその統計的有意性であり、そのため、モデルを構築するには完全なデータセットを使用するのが最善です。統計的有意性は、ほとんどの統計的検定と同様に、サンプルサイズが小さいほど重要性が低くなります。ロジスティック回帰を行うことは、統計科学とほとんど同じくらい芸術です。研究デザインに応じて、使用するさまざまなアプローチと最適化するさまざまなパラメーターがあります。しかし、そのランダムに選択されたサンプルは、偶然に関連性を示さないか、または統計的に有意であるために危険因子にとって小さすぎるために起こるかもしれません。ただし、重要度を決定するのはリスク要因の大きさとその統計的有意性であり、そのため、モデルを構築するには完全なデータセットを使用するのが最善です。統計的有意性は、ほとんどの統計的検定と同様に、サンプルサイズが小さいほど重要性が低くなります。ロジスティック回帰を行うことは、統計科学とほとんど同じくらい芸術です。研究デザインに応じて、使用するさまざまなアプローチと最適化するさまざまなパラメーターがあります。sリスク要因の大きさとその重要性を決定する統計的有意性。そのため、モデルを構築するために完全なデータセットを使用するのが最善です。統計的有意性は、ほとんどの統計的検定と同様に、サンプルサイズが小さいほど重要性が低くなります。ロジスティック回帰を行うことは、統計科学とほとんど同じくらい芸術です。研究デザインに応じて、使用するさまざまなアプローチと最適化するさまざまなパラメーターがあります。sリスク要因の大きさとその重要性を決定する統計的有意性。そのため、モデルを構築するために完全なデータセットを使用するのが最善です。統計的有意性は、ほとんどの統計的検定と同様に、サンプルサイズが小さいほど重要性が低くなります。ロジスティック回帰を行うことは、統計科学とほとんど同じくらい芸術です。研究デザインに応じて、使用するさまざまなアプローチと最適化するさまざまなパラメーターがあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.