負の尤度が尤度の最大化に等しい場合、なぜそれを最小化するのですか？

47

この質問は長い間私を困惑させてきました。可能性を最大化する際に「ログ」を使用することを理解しているため、「ログ」については質問しません。

私の質問は、対数尤度の最大化は「負の対数尤度」（NLL）の最小化と同等であるため、なぜこのNLLを発明したのですか？常に「ポジティブな可能性」を使用しないのはなぜですか？NLLはどのような状況で好まれますか？

ここで少し説明を見つけました。https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/、深さの明らかな同等性を説明するようですが、私の混乱を解決しません。

任意の説明をいただければ幸いです。

maximum-likelihood likelihood

— トニー
ソース

3

最大対数尤度は損失関数ではありませんが、負の値は前のセクションの記事で説明したとおりです。それは一貫性の問題です。特定の問題に対して異なる損失関数を試すスマート学習システムがあるとします。損失関数のセットには、二乗損失、絶対損失などが含まれます。一貫性のあるリストを作成するには、負の対数尤度を損失関数のリストに追加します。

— カグダスオズゲンク

41

これは別の答えです。通常、統計パッケージのオプティマイザーは、関数の結果を最小化することで機能します。関数が尤度値を最初に提供する場合、尤度関数によって返される値を減らすために対数を使用する方が便利です。次に、対数尤度と尤度関数には同じ増加または減少傾向があるため、テストする関数の最尤推定を実際に実行するために、負の対数尤度を最小化できます。例えば参照nlminbRで関数をここに

— ニコラ・ディナポリ
ソース

10

これはオプティマイザーを超えており、最適化理論の慣習に根ざしています。最小化は多くの場合、デフォルトの最適化と見なされているようです。たとえば、「凸最適化」という名前を考えてみましょう。これは最小化と同時に行われますが、「凹最適化」と呼ばれることもあります。

— ビット単位

48

通常、オプティマイザーは関数を最小化するため、負の対数尤度を最小化として使用します。これは、対数尤度または尤度自体を最大化することと同等です。

完全を期すために、対数は単調関数であるため、関数の最適化はその対数の最適化と同じです。尤度関数の対数変換を行うと、処理が容易になり（乗算が合計になります）、これも数値的に安定しています。これは、尤度の大きさが非常に小さい可能性があるためです。対数変換を行うと、これらの小さな数値がより大きな負の値に変換され、有限精度のマシンでより適切に処理できます。

— ルカ
ソース

4

例として、私は頻繁に私の仕事で注文-40,000の対数尤度に遭遇します。この体制では、尤度そのものを扱うことは数値的に不可能です。

— ウィルヴーデン

3

ここで、最小化とは、2つの分布の距離を最小にすることを意味します。ターゲットベルヌーイ分布と生成された結果分布です。我々は（また、相対エントロピーと呼ばれる）カルバック・ライブラー情報量を用いて、二つの分布の距離を測定し、そしてによるKL発散を最小限に多数の理論に交差エントロピー（いずれかのマルチクラスのクロスエントロピーを最小限の量である、参照ここまたはバイナリ分類、参照ここで及びこちら）。

副<文>この[前述の事実の]結果として、それ故に、従って、だから◆【同】consequently; therefore <文>このような方法で、このようにして、こんなふうに、上に述べたように◆【同】in this manner <文>そのような程度まで<文> AひいてはB◆【用法】A and thus B <文>例えば◆【同】for example; as an example

対数尤度の最大化は、「負の対数尤度」の最小化と同等です

に翻訳することができます

対数尤度を最大化することは、2つの分布間の距離を最小化することと同じです。したがって、KL発散を最小化し、次にクロスエントロピーを最小化することと同じです。

非常に直感的になったと思います。

— ラーナー・チャン
ソース

1

答えはあなたが思うよりも簡単です。最適化目的関数を「コスト関数」または「損失関数」と呼ぶのが慣例であるため、最大化するのではなく最小化することにより、正の尤度ではなく負の対数尤度が形成されます語。技術的には両方とも正しいです。ところで、何かを最大化する場合、通常は「ユーティリティ関数」と呼びます。したがって、目標はそれらを最大化することです。

— ヤン
ソース