タグ付けされた質問 「loss-functions」

モデルに従って観測データと予測値の差を定量化するために使用される関数。損失関数の最小化は、モデルのパラメーターを推定する方法です。

2
なぜ2つの異なるロジスティック損失定式化/表記法があるのですか?
2種類のロジスティック損失の公式を見てきました。それらが同一であることを簡単に示すことができます。唯一の違いは、ラベル定義です。yyy 定式化/表記法1、:y∈{0,+1}y∈{0,+1}y \in \{0, +1\} L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) ここで、、ここでロジスティック関数は実数を0,1間隔にマッピングします。p=11+exp(−βTx)p=11+exp⁡(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)}βTxβTx\beta^T x 定式化/表記法2、:y∈{−1,+1}y∈{−1,+1}y \in \{-1, +1\} L(y,βTx)=log(1+exp(−y⋅βTx))L(y,βTx)=log⁡(1+exp⁡(−y⋅βTx)) L(y,\beta^Tx)=\log(1+\exp{(-y\cdot \beta^Tx})) 表記法を選択することは、言語を選択するようなものであり、どちらを使用するかには賛否両論があります。これら2つの表記法の長所と短所は何ですか? この質問に答えようとする私の試みは、統計コミュニティが最初の表記を好み、コンピュータサイエンスコミュニティが2番目の表記を好むように見えることです。 ロジスティック関数は実数を0.1間隔に変換するため、最初の表記は「確率」という用語で説明できます。βTxβTx\beta^Tx 2番目の表記はより簡潔で、ヒンジ損失または0-1損失と比較するのがより簡単です。 私は正しいですか?他の洞察はありますか?

2
ハードマージンSVMの損失関数とは何ですか?
人々はソフトマージンSVMはヒンジ損失関数を使用すると言います:。ただし、ソフトマージンSVMが最小化しようとする実際の目的関数は、 \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max(0,1-y_i(w ^ \ intercal x_i + b)です。 ) 一部の著者は、\ | w \ | ^ 2項正則化および\ max(0,1-y_i(w ^ \ intercal x_i + b))項損失関数を呼び出します。max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b))12∥w∥2+C∑imax(0,1−yi(w⊺xi+b))12‖w‖2+C∑imax(0,1−yi(w⊺xi+b)) \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) ∥w∥2‖w‖2\|w\|^2max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b)) ただし、ハードマージンSVMの場合、目的関数全体はちょうど 12∥w∥212‖w‖2 \frac{1}{2}\|w\|^2 。これは、ハードマージンSVMが損失関数なしで正則化のみを最小化することを意味しますか?それは非常に奇妙に聞こえます。 まあ、あれば12∥w∥212‖w‖2\frac{1}{2}\|w\|^2、この場合の損失関数である、我々は二次損失関数を呼び出すことができますか?もしそうなら、なぜハードマージンSVMの損失関数はソフトマージンSVMで正則化され、二次損失からヒンジ損失に変化するのですか?

1
ニューラルネットワークのコスト関数が非凸であるのはなぜですか?
ここにも同様のスレッドがあります(ニューラルネットワークのコスト関数は非凸状ですか?) 差の二乗コスト関数の合計を使用している場合、最終的にという形式の何かを最適化します。ここではトレーニング中の実際のラベル値ですphaseおよびは予測ラベル値です。これは正方形の形をしているので、これは凸コスト関数でなければなりません。それでは、NNで非凸になる可能性があるのは何ですか?ΣNi=1(yi−yi^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2yyyy^y^\hat{y}

5
ランダムフォレストの誤分類のコストを制御する方法は?
RパッケージrandomForestで誤分類のコストを制御することは可能ですか? 私自身の研究では、偽陰性(例えば、人が病気にかかっている可能性があるというミス)は、偽陽性よりもはるかに費用がかかります。パッケージrpartを使用すると、損失マトリックスを指定して誤分類に異なる重みを付けることにより、誤分類コストを制御できます。同様の何かが存在しrandomForestますか?たとえば、classwtGini基準を制御するオプションを使用する必要がありますか?

3
トレーニング損失は時間とともに増加します[複製]
この質問にはすでに回答があります: コスト関数の変化はどのようにプラスになりますか? (1つの答え) ニューラルネットワークが学習しない場合はどうすればよいですか? (5つの答え) 先月閉鎖されました。 モデル(リカレントニューラルネットワーク)をトレーニングして、4種類のシーケンスを分類しています。トレーニングを実行すると、トレーニングバッチのサンプルの90%以上を正しく分類するまで、トレーニングの損失が減少します。しかし、数エポック後に、トレーニングの損失が増加し、精度が低下することに気付きました。トレーニングセットでは、パフォーマンスが時間の経過とともに悪化することなく改善されると予想されるため、これは私にとって奇妙に思えます。クロスエントロピー損失を使用しており、学習率は0.0002です。 更新:学習率が高すぎることが判明しました。学習率が十分に低い場合、この動作は観察されません。しかし、私はまだこの奇妙なことを見つけます。これが起こる理由についての良い説明は大歓迎です

6
パラメーターを推定するための機械学習の「基本的な」アイデアとは何ですか?
パラメーターを推定するための統計の「基本的な」考え方は、最尤法です。機械学習の対応するアイデアは何だろうと思っています。 Qn 1.パラメーターを推定するための機械学習の「基本的な」アイデアは、「損失関数」であると言ってもいいでしょうか。 [注:機械学習アルゴリズムは損失関数を最適化することが多いため、上記の質問が印象的です。] Qn 2:統計と機械学習のギャップを埋めようとする文献はありますか? [注:おそらく、損失関数を最尤法に関連付けることによって。(たとえば、OLSは正規分布エラーなどの最尤と同等です)]

1
バイナリ分類のための損失関数の選択
私は人々がしばしばROC-AUCまたはAveP(平均精度)を報告する問題領域で働いています。しかし、最近では、代わりにログ損失を最適化する論文を見つけましたが、ヒンジ損失を報告する論文もあります。 これらのメトリックがどのように計算されるかは理解していますが、それらの間のトレードオフを理解するのに苦労しています。 ROC-AUC対Precision-Recallに関しては、このスレッドは、ROC-AUC-maximizationが、「少なくとも真正と同程度の真の負のランク付け」(より高いと仮定して)スコアは正に対応します)。また、この他のスレッドは、Precision-Recallメトリックとは対照的に、ROC-AUCの有用な説明も提供します。 ただし、たとえばROC-AUC、AveP、または ヒンジ損失よりも、どのような種類の問題に対してログ損失が優先されますか?最も重要なことは、バイナリ分類のためにこれらの損失関数を選択するときに、問題についてどのような質問をするべきでしょうか?

3
0-1損失関数の説明
損失関数の目的を把握しようとしていますが、理解できません。 したがって、損失関数は、誤った決定の「コスト」を測定できるある種のメトリックを導入するためのものです。 だから、30個のオブジェクトのデータセットがあり、20/10のようなトレーニング/テストセットに分割したとしましょう。0-1損失関数を使用するので、クラスラベルのセットはMで、関数は次のようになります: L (i 、j )= { 0i = j1i ≠ jI 、J ∈ ML(私、j)={0私=j1私≠j私、j∈M L(i, j) = \begin{cases} 0 \qquad i = j \\ 1 \qquad i \ne j \end{cases} \qquad i,j \in M そこで、トレーニングデータに基づいてモデルを作成し、Naive Bayes分類器を使用しているとしましょう。このモデルでは、7つのオブジェクトが正しく分類され(正しいクラスラベルが割り当てられ)、3つのオブジェクトが誤って分類されました。 したがって、損失関数は「0」を7回、「1」を3回返します。これからどのような情報を取得できますか?私のモデルがオブジェクトの30%を誤って分類したということですか?それとももっとありますか? 私の考え方に間違いがある場合、非常に申し訳ありませんが、ただ学習しようとしています。もし私が提供した例が「抽象的すぎる」なら、私に知らせてください、私はもっと具体的にしようとします。別の例を使用して概念を説明しようとする場合は、0-1損失関数を使用してください。

4
どの条件の下で、ベイジアンおよび頻度点推定量が一致しますか?
平坦な事前分布では、ML(頻度-最大尤度)とMAP(ベイジアン-最大事後確率)推定量は一致します。 ただし、より一般的には、損失関数のオプティマイザーとして導出されたポイント推定量について話します。すなわち )X(x^(.)=argminE(L(X−x^(y))|y) (Bayesian) x^(.)=argminE(L(X−x^(y))|y) (Bayesian) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(X-\hat x(y)) \; | \; y \right) \qquad \; \,\text{ (Bayesian) } x^(.)=argminE(L(x−x^(Y))|x)(Frequentist)x^(.)=argminE(L(x−x^(Y))|x)(Frequentist) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(x-\hat x(Y)) \; | \; x \right) \qquad \text{(Frequentist)} ここで、は期待値演算子、は損失関数(ゼロで最小化)、は推定であり、パラメーターデータ与えられ、ランダム変数は大文字で示されます。 L X(Y )のY XEE\mathbb{E}LLLx^(y)x^(y)\hat x(y) …

2
ロジスティック回帰設定で損失の二乗を使用すると、ここで何が起こっていますか?
損失の二乗を使用して、玩具データセットのバイナリ分類を試みています。 私が使用していmtcarsた透過型を予測するために、データセット、ガロンあたりの利用マイルと体重を。以下のプロットは、異なる色の2種類の透過型データと、異なる損失関数によって生成された判定境界を示しています。二乗損失がある グランドトゥルースラベル(0または1)であり、予測確率である。言い換えれば、私はロジスティック損失を分類設定の平方損失に置き換えています。他の部分は同じです。∑私(y私− p私)2∑私(y私−p私)2\sum_i (y_i-p_i)^2y私y私y_ip私p私p_ip私= ロジット− 1(βTバツ私)p私=ロジット−1(βTバツ私)p_i=\text{Logit}^{-1}(\beta^Tx_i) mtcarsデータを使用したおもちゃの例では、多くの場合、ロジスティック回帰に「類似した」モデルが得られました(ランダムシード0の次の図を参照)。 しかし、ある場合(そうする場合set.seed(1))、二乗損失はうまく機能していないようです。 ここで何が起きてるの?最適化は収束しませんか?ロジスティック損失は、二乗損失と比較して最適化が容易ですか?任意の助けをいただければ幸いです。 コード d=mtcars[,c("am","mpg","wt")] plot(d$mpg,d$wt,col=factor(d$am)) lg_fit=glm(am~.,d, family = binomial()) abline(-lg_fit$coefficients[1]/lg_fit$coefficients[3], -lg_fit$coefficients[2]/lg_fit$coefficients[3]) grid() # sq loss lossSqOnBinary<-function(x,y,w){ p=plogis(x %*% w) return(sum((y-p)^2)) } # ---------------------------------------------------------------- # note, this random seed is important for squared loss work # ---------------------------------------------------------------- set.seed(0) x0=runif(3) x=as.matrix(cbind(1,d[,2:3])) y=d$am opt=optim(x0, lossSqOnBinary, …

4
優れたログ損失とは何ですか?
私はログ損失とその仕組みをよりよく理解しようとしていますが、見つけることができないように思われることの1つは、ログ損失数を何らかのコンテキストに入れることです。モデルのログ損失が0.5の場合、それは良いですか?良い点と悪い点とは何ですか?これらのしきい値はどのように変化しますか?

4
損失関数の包括的な概要?
機械学習の重要なアイデアのいくつかについてグローバルな視点を得ようとしていますが、さまざまな損失の概念(2乗、ログ、ヒンジ、プロキシなど)の包括的な処理があるかどうか疑問に思っていました。私は、John LangfordのLoss Function Semanticsに関する優れた投稿の、より包括的で正式なプレゼンテーションに沿って何かを考えていました。

5
Yolo Loss機能の説明
Yolo v2損失関数を理解しようとしています。 λcoord∑i=0S2∑j=0B1objij[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1objij[(wi−−√−w^i−−√)2+(hi−−√−h^i−−√)2]+∑i=0S2∑j=0B1objij(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1noobjij(Ci−C^i)2+∑i=0S21obji∑c∈classes(pi(c)−p^i(c))2λcoord∑i=0S2∑j=0B1ijobj[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1ijobj[(wi−w^i)2+(hi−h^i)2]+∑i=0S2∑j=0B1ijobj(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1ijnoobj(Ci−C^i)2+∑i=0S21iobj∑c∈classes(pi(c)−p^i(c))2\begin{align} &\lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(x_i-\hat{x}_i)^2 + (y_i-\hat{y}_i)^2 ] \\&+ \lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(\sqrt{w_i}-\sqrt{\hat{w}_i})^2 +(\sqrt{h_i}-\sqrt{\hat{h}_i})^2 ]\\ &+ \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}(C_i - \hat{C}_i)^2 + \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{noobj}(C_i - \hat{C}_i)^2 \\ &+ \sum_{i=0}^{S^2} \mathbb{1}_{i}^{obj}\sum_{c \in classes}(p_i(c) - \hat{p}_i(c))^2 \\ \end{align} 誰かが機能の詳細を説明できる場合。

3
ヒンジ損失とロジスティック損失の長所と短所/制限
ヒンジ損失を使用して定義することができる、ログ損失として定義することができるログ(1つの+ EXP (- Y I W Tは、xは Iを))最大(0 、1 - Y私wTバツ私)最大(0、1−y私wTバツ私)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)log (1 + exp(− y私wTバツ私))ログ(1+exp⁡(−y私wTバツ私))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) 次の質問があります。 ヒンジ損失の欠点はありますか(例:http://www.unc.edu/~yfliu/papers/rsvm.pdfに記載されている外れ値に敏感)。 一方と他方の違い、長所、短所は何ですか?

2
勾配降下を使用してk-meansが最適化されないのはなぜですか?
私が知っているK-手段が通常使用して最適化された期待値最大化を。ただし、他の最適化と同じ方法で損失関数を最適化できます! 大規模なk-meansに確率的勾配降下法を実際に使用している論文をいくつか見つけましたが、私の質問に答えることができませんでした。 だから、誰がそれがなぜだか知っていますか?期待値の最大化がより速く収束するためでしょうか?特別な保証はありますか?それとも歴史的な理由ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.