SMOTE手法を使用してデータセットのバランスをとるのに使用される最良のパフォーマンスメトリックは何ですか
スモートテクニックを使用してデータセットをオーバーサンプリングし、バランスのとれたデータセットを手に入れました。私が直面した問題は、パフォーマンスメトリックです。精度、再現率、f1メジャー、不均衡データセットの精度は、均衡データセットよりも優れています。 データセットのバランスがモデルのパフォーマンスを向上させる可能性があることを示すために、どの測定を使用できますか? 注意:roc_auc_scoreは、データセットが不均衡なroc_auc_scoreよりも、バランスのとれたデータセットで優れています。これは、優れたパフォーマンス測定と見なすことができますか?説明の後、コードを実装し、この結果を得ました import pandas as pd import numpy as np from sklearn import preprocessing import matplotlib.pyplot as plt plt.rc("font", size=14) from sklearn.svm import LinearSVC from sklearn.svm import SVC from sklearn.cross_validation import train_test_split,StratifiedShuffleSplit,cross_val_score import seaborn as sns from scipy import interp from time import * from sklearn import metrics X=dataCAD.iloc[:,0:71] …