5
統計と機械学習の2つのグループを区別する:仮説検定対分類対クラスタリング
AとBというラベルの付いた2つのデータグループ(それぞれ200個のサンプルと1つの機能を含むなど)があり、それらが異なるかどうかを知りたいとします。私はできた: a)統計的検定(t検定など)を実行して、統計的に異なるかどうかを確認します。 b)教師付き機械学習を使用します(サポートベクトル分類子またはランダムフォレスト分類子など)。データの一部でこれをトレーニングし、残りの部分で検証できます。機械学習アルゴリズムがその後残りを正しく分類する場合、サンプルが微分可能であると確信できます。 c)教師なしアルゴリズム(K-Meansなど)を使用して、すべてのデータを2つのサンプルに分割します。次に、これらの2つのサンプルがラベルAとBに一致するかどうかを確認できます。 私の質問は: これら3つの異なる方法はどのように重複/排他的ですか? b)とc)は科学的な議論に役立ちますか? 方法b)とc)のサンプルAとBの違いの「有意性」を取得するにはどうすればよいですか? データに1つの機能ではなく複数の機能がある場合、何が変わりますか? サンプル数が異なる場合、たとえば100対300の場合はどうなりますか?