統計とビッグデータ z-score

1

これらの3つの対策の間に何か関係があるのだろうかと思います。定義を参照することでそれらの間のつながりを作ることができないようです（おそらくこれらの定義に慣れていないので、それらをつかむのに少し苦労しているからです）。コサインの類似性の範囲は0〜1であり、ピアソン相関の範囲は-1〜1であり、zスコアの範囲は不明です。ただし、コサイン類似性の特定の値がピアソン相関またはzスコアについてどのように伝えることができるか、またはその逆はどうでしょうか？

16 correlation z-score cosine-similarity

1

相互に排他的でないカテゴリを分類できる深層学習モデル

例：仕事の説明に「英国のJavaシニアエンジニア」という文があります。私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい：English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか？「編集」：従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます例：3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか？それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

3

同じ分布の2つのデータセットを使用しているときに、いつデータを正規化するのですか？

2つのデータセットD1とD2があるとします。両方とも同じ基礎となる分布Xからサンプリングされています。ニューラルネットワークをトレーニングするためにそれらを使用したいと思います。特徴はすべて範囲[0;の符号なし整数です。2 ^ 64]。機能のスケールが大きく異なるため、シグモイド関数と組み合わせてzスコアの正規化を使用することにしました。つまり、Zスコアの正規化されたデータをロジスティック関数に送り、特徴を[0; 1]範囲。この時点では、どの時点でデータを正規化するかわかりません。 1.）D1を使用して、D1のみを考慮して得られるmean_1とstd_dev_1で正規化します。D2のプロセスを繰り返し、mean_2とstd_dev_2を使用して正規化します。次に、2つのデータセットを使用してネットワークを順次トレーニングします。 2.）D1とD2を追加してセットD3を取得し、データセット全体（mean_3とstd_dev_3）を計算して正規化します（D1 + D2）。次に、それを使用してネットワークをトレーニングします。ここで2つの質問： a）2つの方法で同様の結果が得られますか？D2がD1より後に利用可能になる可能性があり、データセット全体でネットワークを再トレーニングする必要があるかどうかを知る必要があるため、私にとって特に重要です。 b）訓練されたネットワークで推論を行う場合、新しい入力を正規化するためにどのパラメーターを使用する必要がありますか？たとえば、mean_3とstd_dev_3を使用する必要がありますか？編集：2つのデータセットの組み合わせの平均と標準偏差は、元のデータセットの平均と標準偏差から計算できることがわかりました。つまり、（理論的には）それらを順次トレーニングし、それらの分布パラメーターを組み合わせて推論の入力を正規化することができます。

7 neural-networks dataset normalization z-score

タグ付けされた質問 「z-score」

タグ付けされた質問「z-score」