分類でトレーニングデータを生成するための層別サンプリングとランダムサンプリングの利点

元のデータセットを分類用のトレーニングとテストセットに分割するときに、ランダムサンプリングではなく層別サンプリングを使用する利点があるかどうかを知りたいと思います。

また、層化サンプリングは、ランダムサンプリングよりも分類器により多くのバイアスを導入しますか？

データ準備に層化サンプリングを使用したいアプリケーションは、元のデータセットのでトレーニングされたRandom Forests分類器です。分類器の前に、クラスのサイズのバランスをとる合成サンプル生成（SMOTE [1]）のステップもあります。 $\frac{2}{3}$

[1] Chawla、Nitesh V.、他「SMOTE：合成マイノリティオーバーサンプリングテクニック。」Journal of Artificial Intelligence Research 16（2002）：321-357。

— gc5
ソース

層別サンプリングの目的は、データセットを分割して、各分割が何かに関して類似するようにすることです。

分類設定では、多くの場合、トレーニングセットとテストセットの各ターゲットクラスのサンプルの割合が完全なセットとほぼ同じになるように選択されます。

その結果、データセットに各クラスが大量にある場合、層別サンプリングはランダムサンプリングとほとんど同じです。ただし、データセットで1つのクラスがあまり表されていない場合（少数派クラスをオーバーサンプリングする予定であるためデータセットに該当する可能性があります）、層別サンプリングでは、トレーニングセットとテストセットでランダムなものとは異なるターゲットクラス分布が生じる場合がありますサンプリングが生じる場合があります。

層化サンプリングは、次のトレインおよびテストセットでいくつかの機能を均等に分散するように設計される場合があることに注意してください。たとえば、各サンプルが1人の個人を表し、1つの特徴が年齢である場合、トレインセットとテストセットの両方で同じ年齢分布を持つと便利な場合があります。

ご参考までに：

— フランク・ダーノンクール
ソース