タグ付けされた質問 「loss-functions」

モデルに従って観測データと予測値の差を定量化するために使用される関数。損失関数の最小化は、モデルのパラメーターを推定する方法です。

5
ニューラルネットワークのマルチクラス、マルチラベル分類タスクの損失関数は何ですか?
ニューラルネットワークをトレーニングして、オブジェクトのセットをnクラスに分類しています。各オブジェクトは、同時に複数のクラスに属することができます(マルチクラス、マルチラベル)。 マルチクラス問題の場合、一般に、mseの代わりにソフトマックスとカテゴリクロスエントロピーを損失関数として使用することをお勧めしますが、その理由はだいたいわかります。 マルチラベルの私の問題については、各クラスの確率が互いに独立している必要があるため、もちろんソフトマックスを使用することは意味がありません。したがって、最後のレイヤーは、入力をすべてのクラスの確率範囲0..1に押しつぶすシグモイドユニットです。 今、私はこれにどの損失関数を使用すべきかわからない。カテゴリクロスエントロピーの定義を見ると、1になるはずのニューロンの出力のみが考慮され、他のニューロンは無視されるため、この問題にはあまり当てはまらないと思います。 バイナリクロスエントロピーは、より適切に聞こえますが、出力ニューロンが1つの場合のバイナリ分類の問題については、これまでに言及しただけです。 重要な場合に備えて、トレーニングにpythonとkerasを使用しています。

3
機械学習:バイナリ予測にカテゴリクロスエントロピーまたはバイナリクロスエントロピー損失を使用する必要がありますか?
まず、バイナリ予測を実行する必要がある場合、ワンホットエンコーディングを実行して少なくとも2つのクラスを作成する必要があることに気付きました。これは正しいです?ただし、バイナリクロスエントロピーは、クラスが1つだけの予測に対してのみですか?ほとんどのライブラリ(TensorFlowなど)で通常見られるカテゴリクロスエントロピー損失を使用する場合、大きな違いはありますか? 実際、カテゴリクロスエントロピーとバイナリクロスエントロピーの正確な違いは何ですか?TensorFlowでバイナリクロスエントロピーの実装を見たことがないので、おそらくカテゴリー的なものも同じように機能すると思いました。

5
ニューラルネットワークのコスト関数は非凸ですか?
ニューラルネットワークのコスト関数はJ(W,b)J(W,b)J(W,b)であり、非凸であると主張されています。私はそれがロジスティック回帰のコスト関数に非常に似ているとわかるので、なぜそうなのか理解していませんか? それは非凸である場合は、2次微分よう∂J∂W&lt;0∂J∂W&lt;0\frac{\partial J}{\partial W} < 0、右? 更新 以下の回答と@gungのコメントのおかげで、隠されたレイヤーがまったくない場合、ロジスティック回帰のように凸面になっています。しかし、隠れ層がある場合、隠れ層のノードと後続の接続の重みを並べ替えることにより、同じ損失につながる重みの複数のソリューションを得ることができます。 さらに質問があります 1)複数の極小値があり、それらのいくつかは同じ値である必要があります。それらはいくつかのノードと重みの順列に対応しているからですよね? 2)ノードとウェイトがまったく並べ替えられない場合、凸型ですよね?そして、最小値はグローバル最小値になります。もしそうなら、1)への答えは、それらの局所的最小値はすべて同じ値になるでしょう、正しいですか?

2
OLS線形回帰のコスト関数
Andrew NgがCourseraで機械学習について行った線形回帰に関する講義と少し混同されています。そこで、彼は平方和を最小化するコスト関数を次のように与えました。 12 メートル∑i = 1m(hθ( X(i ))− Y(i ))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 がどこから来たのか理解しています。彼は、二乗項で微分を実行したときに、二乗項の2が半分でキャンセルされるようにしたと思います。しかし、がどこから来たのかわかりません。 11212\frac{1}{2}1m1m\frac{1}{m} なぜを行う必要があるのですか?標準線形回帰では、それはありません。単に残差を最小化します。ここで必要なのはなぜですか?1m1m\frac{1}{m}

1
損失関数とエラー関数の違いは何ですか?
「損失」という用語は「エラー」と同義ですか?定義に違いはありますか? また、「損失」という用語の起源は何ですか? 注意:ここで言及されているエラー関数は、通常のエラーと混同しないでください。

4
ロジスティック回帰に適切な損失関数はどれですか?
ロジスティック回帰の損失関数の2つのバージョンについて読みましたが、どちらが正しいか、なぜですか? Machine Learningから、Zhou ZH(中国語)、:β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 私の大学のコースから、:zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = y_if(x_i)=y_i(w^Tx_i + b) L(zi)=log(1+e−zi)(2)(2)L(zi)=log⁡(1+e−zi)L(z_i)=\log(1+e^{-z_i}) \tag 2 最初のサンプルはすべてのサンプルの累積であり、2番目のサンプルは単一のサンプルに関するものであることは知っていますが、2つの損失関数の形式の違いについてはもっと興味があります。どういうわけか、私はそれらが同等であると感じています。

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train &lt;- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
XGBoost損失関数テイラー展開による近似
例として、番目の反復でXGBoostモデルの目的関数を使用します。ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) ここで、は損失関数、は番目のツリー出力、は正則化です。高速計算のための(多くの)重要なステップの1つは近似です:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), ここで、およびは損失関数の1次および2次導関数です。gigig_ihihih_i 私が求めているのは、上記の近似がなぜ機能するのかを説明する説得力のある説得です: 1)上記の近似のXGBoostは、完全な目的関数のXGBoostと比較してどうですか?どのような潜在的に興味深い、高次の動作が近似で失われますか? 2)視覚化するのは少し難しい(損失関数に依存する)が、損失関数に大きな3次成分がある場合、近似は失敗する可能性が高い。これがXGBoostに問題を引き起こさないのはどうしてですか?

3
0-1の損失を近似するために分類で異なる損失関数を選択することの影響は何ですか
一部の目的関数は最適化が容易であり、一部は困難であることがわかっています。また、使用したいが使いにくい損失関数が多数あります(0-1損失など)。そのため、作業を行うためのプロキシ損失関数をいくつか見つけました。たとえば、ヒンジ損失またはロジスティック損失を使用して、0-1の損失を「概算」します。 次のプロットは、Chris BishopのPRML本からのものです。ヒンジ損失は青、ログ損失は赤、平方損失は緑、0/1エラーは黒でプロットされます。 (ヒンジ損失とロジスティック損失の)そのような設計がある理由は、目的関数を凸にしたいからです。 ヒンジ損失とロジスティック損失を調べることにより、強く誤分類されたインスタンスに対してよりペナルティを課し、興味深いことに、正しく分類されたインスタンスが弱く分類された場合にもペナルティを課します。それは本当に奇妙なデザインです。 私の質問は、ヒンジ損失やロジスティック損失など、さまざまな「プロキシ損失関数」を使用して支払う必要がある価格はいくらですか?

2
ダイス係数損失関数とクロスエントロピー
完全たたみ込みネットワークなどのピクセルセグメンテーションニューラルネットワークをトレーニングする場合、クロスエントロピー損失関数とダイス係数損失関数のどちらを使用するかをどのように決定しますか? これは短い質問ですが、他にどのような情報を提供すべきかはよくわかりません。2つの損失関数に関する多くのドキュメントを見ましたが、どちらを使用するかを直感的に理解することはできません。

1
トレーニングの損失は再び減少します。何が起こっている?
トレーニングの損失が減少し、再び増加します。とても奇妙です。交差検証損失は、トレーニング損失を追跡します。何が起こっている? 次の2つのスタックLSTMSがあります(Kerasで)。 model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') 100エポックでトレーニングします。 model.fit(X_train, np.array(y_train), batch_size=1024, nb_epoch=100, validation_split=0.2) 127803サンプルのトレーニング、31951サンプルの検証 そして、それは損失がどのように見えるかです:

3
ヒンジ損失の勾配
基本的な勾配降下を実装しようとしていますが、ヒンジ損失関数、つまり。ただし、ヒンジ損失の勾配については混乱しています。私はそれがあるという印象を受けていますlhinge=max(0,1−y x⋅w)lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w}) ∂∂wlhinge={−y x0if y x⋅w&lt;1if y x⋅w≥1∂∂wlhinge={−y xif y x⋅w&lt;10if y x⋅w≥1 \frac{\partial }{\partial w}l_{\text{hinge}} = \begin{cases} -y\ \boldsymbol{x} &\text{if } y\ \boldsymbol{x}\cdot\boldsymbol{w} < 1 \\ 0&\text{if } y\ \boldsymbol{x}\cdot\boldsymbol{w} \geq 1 \end{cases} しかし、これは\ boldsymbol {x}と同じサイズの行列を返しませんxx\boldsymbol{x}か?長さ\ boldsymbol {w}のベクトルを返そうとしていると思いましたww\boldsymbol{w}か?明らかに、どこかで混乱しているものがあります。ここで誰かが正しい方向を指すことができますか? タスクの説明が明確でない場合に備えて、いくつかの基本的なコードを含めました #Run standard gradient descent gradient_descent&lt;-function(fw, dfw, …

2
分位点回帰:損失関数
分位点回帰を理解しようとしていますが、私が苦しむ1つのことは、損失関数の選択です。 ρτ(u)=u(τ−1{u&lt;0})ρτ(u)=u(τ−1{u&lt;0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) 私はの期待の最小ことを知っているに等しいτ % -quantileが、この機能をオフに開始するための直感的な理由は何ですか?この関数の最小化と変位値の関係はわかりません。誰かが私にそれを説明できますか?ρτ(y−u)ρτ(y−u)\rho_\tau(y-u)τ%τ%\tau\%

2
回帰用の非対称損失関数を設計および実装する方法は?
問題 回帰では、通常、サンプルの平均二乗誤差(MSE)を 計算しますMSE=1n∑i=1n(g(xi)−gˆ(xi))2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 予測の品質を測定します。 現在、私は回帰の問題に取り組んでおり、その目的は、多くの数値的特徴が与えられた場合に顧客が製品に対して支払う価格を予測することです。予測価格が高すぎる場合、顧客は製品を購入しませんが、価格を単純に引き下げることができるため、金銭的損失は低くなります。もちろん、製品が長期間購入されない可能性があるため、高すぎてはいけません。一方、予測価格が低すぎる場合、製品は価格を調整する機会なしに迅速に購入されます。 言い換えれば、学習アルゴリズムは、すぐに金銭的損失をもたらす真の価格を過小評価するのではなく、必要に応じて減少させることができるわずかに高い価格を予測する必要があります。 質問 このコストの非対称性を組み込んだエラーメトリックをどのように設計しますか? 可能な解決策 非対称損失関数を定義する方法は、単純に重みを掛けることです: 1n∑i=1n∣∣α−1(g(xi)−gˆ(xi))&lt;0∣∣⋅(g(xi)−gˆ(xi))21n∑i=1n|α−1(g(xi)−g^(xi))&lt;0|⋅(g(xi)−g^(xi))2 \frac{1}{n} \sum_{i=1}^n \left| \alpha - \mathbb{1}_{(g(x_i) - \widehat{g}(x_i)) < 0} \right|\cdot \left(g(x_i) - \widehat{g}(x_i)\right)^2 を有するα∈(0,1)α∈(0,1)\alpha \in (0,1)我々は、非対称の程度を変更するために調整することができるパラメータです。ここで見つけた。これは、二次損失を維持しながら行うべき最も簡単なことのように思えます。

4
L1回帰推定値の中央値とL2回帰推定値の平均
そこで私は、L1(つまり投げ縄)とL2(つまり尾根回帰)のどの中心的な測定値が推定されたのかという質問をされました。答えは、L1 =中央値およびL2 =平均です。これには直感的な推論のタイプがありますか?または、代数的に決定する必要がありますか?もしそうなら、どうすればそれを行うことができますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.