ディープラーニングモデルの場合、softmax出力が不確実性の指標として適切ではないのはなぜですか?


22

私は現在、主にセマンティックセグメンテーション/インスタンスセグメンテーションの画像データで、畳み込みニューラルネットワーク(CNN)を使用しています。ネットワーク出力のソフトマックスを「ヒートマップ」として頻繁に視覚化して、特定のクラスのピクセルごとのアクティベーションの高さを確認しました。低活性化は「不確実」/「自信がない」と解釈し、高活​​性化は「特定」/「自信がある」予測と解釈しました。基本的に、これは、softmax出力(内の値)をモデルの確率または(不)確実性尺度として解釈することを意味します。(0,1)

たとえば、ピクセル全体で平均された低いソフトマックスアクティベーションを持つオブジェクト/エリアは、CNNが検出するのが難しいと解釈したため、CNNはこの種のオブジェクトの予測について「不確か」です。

私の認識では、これはよく機能し、トレーニング結果に「不確実な」領域のサンプルを追加すると、これらの結果が改善されました。しかし、ソフトマックスの出力を(不)確実性の尺度として使用/解釈するのは良い考えではなく、一般的にはお勧めできないと、さまざまな側面からよく耳にします。どうして?


編集:ここで私が尋ねていることを明確にするために、この質問に答える際のこれまでの洞察について詳しく説明します。しかし、同僚、監督者から繰り返し言われたように、なぜそれが一般的に悪い考えであるのか、以下の議論のどれも私に明らかにしませんでした

分類モデルでは、パイプラインの最後に取得された確率ベクトル(softmax出力)は、モデルの信頼度として誤って解釈されることがよくあります。

またはここの「背景」セクションで

たたみ込みニューラルネットワークの最終ソフトマックスレイヤーによって与えられた値を信頼スコアとして解釈するのは魅力的かもしれませんが、これを読みすぎないように注意する必要があります。


上記の原因は、ソフトマックス出力を不確実性の尺度として使用するのが悪い理由です。

実画像に対する知覚できない摂動は、深いネットワークのソフトマックス出力を任意の値に変更する可能性があります

これは、softmax出力が「知覚できない摂動」に対してロバストではないことを意味します。したがって、その出力は確率として使用できません。

別の論文では、「softmax output = Confidence」という考え方が取り上げられており、この直観ではネットワークは簡単にだまされる可能性があり、「認識できない画像に対する信頼性の高い出力」が得られると主張しています。

(...)特定のクラスに対応する(入力ドメイン内の)領域は、そのクラスのトレーニングサンプルが占めるその領域のスペースよりもはるかに大きい場合があります。この結果、画像はクラスに割り当てられた領域内にあるため、softmax出力の大きなピークで分類されますが、トレーニングセットのそのクラスで自然に発生する画像からは遠くなります。

これは、トレーニングデータから遠く離れたデータは、モデルが(それを見たことがないので)確信できないため、高い信頼を得ることはないことを意味します。

ただし、これは一般的に、NN全体の一般化特性を単純に疑問視しているのではありませんか?すなわち、ソフトマックス損失を伴うNNは、(1)「知覚できない摂動」または(2)認識できない画像などのトレーニングデータから遠く離れた入力データサンプルにうまく一般化しないということです。

この推論に続いて、私はまだ理解していません、なぜ実際にトレーニングデータ(すなわち、ほとんどの「実際の」アプリケーション)に対して抽象的および人為的に変更されていないデータで、ソフトマックス出力を「疑似確率」として解釈するのが悪いのか考え。結局のところ、彼らは私のモデルが正しいとは限らない場合でも、そのモデルが確信していることをよく表しているようです(この場合、モデルを修正する必要があります)。そして、モデルの不確実性は常に「単なる」近似ではありませんか?


4
Softmaxは不確実性の尺度ではなく、を変換する関数です。(,)(0,1)
ティム

2
私はsoftmaxが何であるかについて疑問はありません。「なぜソフトマックス出力が不確実性の指標ではないのか」に言い換えることが明確になることを願っています:ネットワークのアクティベーションをに変換するという事実により、ネットワーク出力を確率/(不)確実性の尺度として解釈したくなる説明した。これは良いアイデアではないことが明らかになりましたが、なぜこれが悪いアイデアであるかについてはまだ理解が不足しています。高いネットワークアクティベーション(マッピング)が高いネットワーク信頼性の指標ではないのはなぜですか (0,1)(0,1)
ハニーベア

私あなたがこれを言葉で表現する方法のように:「すべての後、彼らは私のモデルは、それが(その場合、私は私のモデルを修正する必要があります)正しくない場合でも、確かに約あるかうまく表現しているようだ。」
HeyWatchThis

回答:


14

この質問は、現在の回答よりも正確に回答できます。予測確率(ニューラルネットワークのsoftmax層の出力)とそれらの真の確率(信頼の概念を表す)の間の偏差を修正することは、キャリブレーションまたは信頼性曲線として知られています。

多くのディープニューラルネットワークの問題は、予測ではうまく機能する傾向がありますが、softmaxレイヤーの出力によって生成される推定予測確率は、(各ラベルの信頼度として)真の確率として確実に使用できないことです。実際には、それらは高すぎる傾向があります-ニューラルネットワークは予測に「自信がありすぎ」ます。

チュアンゴー他 Kilian Weinbergerと協力して、この論文でニューラルネットワークの予測確率を調整するための効果的なソリューションを開発しました:https : //arxiv.org/pdf/1706.04599.pdf

また、このホワイトペーパーでは、予測された確率が正しく較正された場合に、予測された確率を信頼性尺度として解釈する方法についても説明します。


1
私は人々がこの何度も言及して以来、この論文を探して聞いてきた、あなたを@cgnorthcuttありがとう、本当に素敵な参照
テオフィル・ペース

美しい、ありがとう。興味のある方のためのアブストラクトへのリンク(論文の代わりに):arxiv.org/abs/1706.04599
Waylon Flinn

3

MLでソフトマックスと呼ばれるものには、多項ロジスティック方程式と同じ方程式があります。後者は、確率を計算するために使用できます。実際には、住宅ローンの競合リスクフレームワークのデフォルト確率の推定に広く使用されています。このペーパーの 4 。

したがって、私はあなたの直感が完全に外れているとは言いません。ただし、上記の住宅ローンモデリングの例では、従属変数はローンデフォルトの確率メトリックです。住宅ローンのプールがあり、デフォルトの数を観察します。単一の住宅ローンは、現在またはデフォルトのいずれかである可能性があり、デフォルトの確率は観察できません。離散イベントのみを観察します。ただし、確率はモデル化します。

これは機械学習とどう違うのですか?場合によります。私はそれを住宅ローンのデフォルトに適用することを決定することができました、そしてそれはまったくそれほど変わらないでしょう。一方、異なるアプリケーションでは、これは機能しない場合があります。私の例のように確率を明示的にモデリングしていない場合、モデルの出力は確率を適切に表していない可能性があります。


答えてくれてありがとう。これは次のように要約されます:場合によっては実際には有効なアプローチですが、堅牢ではなく、特定のタスクに適用できるかどうかを(簡単に)知らないため、一般的には良いアイデアではありませんか?
ハニーベア

「ロバスト」のような用語は統計上非常に具体的な意味を持っているので、私はあきらめませんが、あなたは私の議論の要点を理解しました。確率を具体的にモデル化している場合、ある時点でsoftmax方程式を使用することになり、出力を確率として解釈することは問題ありません。通常、softmax出力は確率に対応しません。
アクサカル

1

Softmaxは、使用可能なクラス間で「確率」0-1を分配します。不確かさを表現するものではなく、PDF関数ではありません。不確かさを表現したい場合は、ベイジアンニューラルネットワークを調べる必要があります。この論文をご覧くださいディープラーニングの不確実性 最近の確率フレームワーク:

Zoubin Ghahramani(ケンブリッジ大学)による興味深い基調講演

この論文をご覧ください混合密度ネットワーク

実装して、CONVNETの最終層として追加できると思います。実装する場合は、共有が思いやりがあることを忘れないでください;-)


1

論文ではベイズ近似としてドロップアウト:ディープ・ラーニングで表すモデルの不確実性、Yarinギャルとズービン・ガウラマーニーは、次のことを主張します

分類では、パイプラインの最後に得られた予測確率(softmax出力)は、モデルの信頼度として誤って解釈されることがよくあります。高いsoftmax出力でも、モデルの予測が不確実になることがあります(図1)。関数(点線1a)のポイント推定値をソフトマックス(点線1b)に渡すと、トレーニングデータから遠く離れた点について、不当な高い信頼度で外挿が行われます。たとえば、は、確率1のクラス1として分類されます。x

これが図1です。

ここに画像の説明を入力してください

そのため、softmaxの出力をモデルの不確実性または信頼性として解釈すると、モデルはその領域でトレーニングデータが観察されない場合でも、ポイントに対して非常に信頼できますが、これは誤解を招く可能性がありますその領域は、学習した領域(黒の実線)とは完全に異なる場合があります。x

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.