問題固有の損失関数の作成


8

問題の説明

単純なMSE回帰よりもはるかに洞察に富んだ損失関数が存在する可能性があると感じている問題について、ネットワーク構築を開始しています。

私の問題は、マルチカテゴリ分類を扱います(これについて私が何を意味するかについては、SOに関する私の質問を参照してください)。ここで、考慮すべきカテゴリ間の距離または関係が定義されています。

もう1つのポイントは、存在する発砲カテゴリーの数によってエラーが影響を受けることはないということです。つまり、0.1ずつずれた5つの発砲カテゴリのエラーは、0.1ずつずれた1つの発砲カテゴリと同じになります。(発砲とは、それらがゼロ以外、またはあるしきい値を超えていることを意味します)


キーポイント

  • マルチカテゴリー分類(一度に複数発火)
  • カテゴリー間の関係
  • 発砲カテゴリーの数は損失に影響しないはずです:
    • ここに画像の説明を入力してください

私の試み

平均二乗誤差は、開始するのに適しているようです:

ここに画像の説明を入力してください

これは、カテゴリーごとに考慮しているだけです。これは、私の問題では依然として価値がありますが、全体像の大部分を見逃しています。

ここに画像の説明を入力してください

これが、カテゴリー間の距離の考えを修正するための私の試みです。次に、発火するカテゴリの数を考慮します(これを v と呼びます)。

ここに画像の説明を入力してください


私の質問

私は統計学の背景が非常に弱いです。その結果、このような問題を解決するためのツールはベルトにあまりありません。私が求めていることの包括的なトピックは、「コスト関数を形成するとき、どのようにしてコストの複数の測定値を組み合わせるのですか?それとも、どのような手法を適用できるのですか?」。また、私の思考プロセスに欠陥があった場合は、それを公開して改善していただければ幸いです。

説明せずに誰かが単独で修正するのではなく、なぜ私の間違いが間違いなのかを教えられることを大切にしています。

この質問の一部が明確でないか、改善できる場合は、お知らせください。


エイダン、問題固有の損失関数を構築することに専念している多くの考えを見るのは良いことです。私はこれを統計の問題ではなく、数学の問題と見なす傾向があります。2x5行列を実数にする損失関数を探しており、この関数が満たすべき特定の不変式について強力なアイデアを持っているため、関数型に制約が課せられます。マトリックスの意味を説明していただければ、損失関数を作成するためのより具体的なガイダンスを提供できるでしょう。
デビッドC.ノリス

回答:


2

分類損失の上限であるヒンジ損失を使用できます。つまり、最高スコアのカテゴリのラベルがグラウンドトゥルースクラスのラベルと異なる場合、モデルにペナルティが課されます。

分類損失とヒンジ損失の関係の詳細については、CNJ YuとT. Joachims によるこの素晴らしい論文のセクション2を参照してください。

要約すると、あるタスク損失通常で示さ、の出力を予測するためのペナルティ測定、YをX I入力のためにxはIを期待するとき(グランドトゥルース)出力はy iです。多クラス分類のためのタスクの損失は、通常のように定義されるΔ Y IYX I = 1 {Δyy^バツy^バツバツy。しかし、限り Δは 2枚のしかラベルに依存 Y Y、あなたはしかし、あなたがしたい、それを定義することができます。具体的には、一方が表示でき Δを任意として K × Kの行列 Kは、カテゴリの数であり、 Δ bはカテゴリの入力分類のペナルティを示し Aをカテゴリに属するものとして BをΔyy^バツ=1{yy^バツ}Δyy^ΔK×KKΔabab

例えば: 入力データ{バツ1y1バツ2y2バツy}バツRdyY={c1c2cc4}ネットワーク予測y^バツ1=c2y^バツ2=c1y^バツ=cタスク損失マトリックス[Δy1y1Δy1y2Δy1yΔy1y4Δy2y1Δy2y2Δy2yΔy2y4Δyy1Δyy2ΔyyΔyy4Δy4y1Δy4y2Δy4yΔy4y4]=[01210122101210]想定損失分類 y1=c4y2=c1y=c4Δy1y^バツ1=Δc4c2=2Δy2y^バツ2=Δc1c1=0Δyy^バツ=Δc4c=1


1
ご返信ありがとうございます。私はあなたの質問に例を追加しました(あなたがこのコメントを見たとき、まだピアレビュー中かもしれません)。私の解釈が正しいことを確認できますか?
Aidan Gomez

これは分類スタイルの問題では価値があると思いますが、私は回帰(多次元ラベルを使用)であり、複数のカテゴリが同時に "オン"になる可能性があります。これはargmaxに似ているようです。各入力に対して、最大の出力カテゴリのみが考慮されます。私の問題では、{1,0,1,1}のようなラベルがあり、カテゴリ0、2、3はすべてデータに存在しますが、カテゴリ1は存在しません。ネットワークが{0.8、0、0.6、0.3}を推測した場合、私の損失は{0.8、0、0.7、0.7}のような推測と同じであってはなりません。
Aidan Gomez

YKY={01}KΔ2K×2K

これは正しいパスのように聞こえますが、1次元のラベルのケースで行ったような簡単な例を提供できますか?おそらくK = 2または3の場合
Aidan Gomez

バツy=011y^バツ=0.10.90.8Δ{01}×[01]RΔyy^=最高k=1K|y[k]y^[k]|
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.