相互に排他的でないカテゴリを分類できる深層学習モデル

例：仕事の説明に「英国のJavaシニアエンジニア」という文があります。

私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい：English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか？

「編集」：従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます

例：3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか？それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか？

machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

— ボクスター
ソース

softmax関数の代わりにシグモイド関数を使用する必要があります。複数のクラスをデータポイントに割り当てることができます。

— NITISH MAHAJAN

このマルチラベル分類は、softmaxをシグモイドのアクティブ化に置き換え、損失関数としてカテゴリカルクロスエントロピーの代わりにバイナリクロスエントロピーを使用することで実現できます。次に、ラベルと同じ数の出力ユニット/ニューロンを持つ1つのネットワークが必要です。

$i$ $j$

$L_i = - \sum_j{t_{i,j} \log(p_{i,j})}$

$t_{i,j}=0$ $L_i=-\sum_j{t_{i,j} \log(p_{i,j})} -\sum_j{(1 - t_{i,j}) \log(1 - p_{i,j})}$

— ロビンチボール
ソース

損失関数として、カテゴリカルクロスエントロピーの代わりにバイナリクロスエントロピーを使用する必要があるのはなぜですか。もっと説明できますか？今、私はシグモイドアクティベーション@robintiborを使用しています

— voxter

私は答えに説明を追加しました@voxter

— robintibor

鮮やかさ！ありがとうございました。また、あなたが私を説明したように、ディープラーニングの関数についてより多くの数学を説明するいくつかのドキュメントまたはチュートリアルを与えることができますか？

— ボクスター2017

すごい。これらのチュートリアルが役立つ場合があります。neuralnetworksanddeeplearning.comdeeplearning.net/ tutorial deeplearning.stanford.edu/tutorial

— robintibor