元のデータセットを分類用のトレーニングとテストセットに分割するときに、ランダムサンプリングではなく層別サンプリングを使用する利点があるかどうかを知りたいと思います。
また、層化サンプリングは、ランダムサンプリングよりも分類器により多くのバイアスを導入しますか?
データ準備に層化サンプリングを使用したいアプリケーションは、元のデータセットのでトレーニングされたRandom Forests分類器です。分類器の前に、クラスのサイズのバランスをとる合成サンプル生成(SMOTE [1])のステップもあります。
[1] Chawla、Nitesh V.、他 「SMOTE:合成マイノリティオーバーサンプリングテクニック。」Journal of Artificial Intelligence Research 16(2002):321-357。