2つの母集団からのサンプルがあるA
としB
ます:と。これらの母集団は個人で構成されていると仮定し、個人を特徴の観点から説明することにします。これらの機能の一部はカテゴリ型であり(たとえば、機能するように駆動しますか?)、一部は機能的です(高さなど)。これらの機能をと呼びましょう。何百ものこれらの機能(例、n = 200)を収集します。簡単にするために、すべての個人にわたってエラーやノイズがないと仮定しましょう。
2つの母集団は異なると仮定します。私たちの目標は、次の2つの質問に答えることです。
- それらは実際に大きく異なりますか?
- それらの間の大幅な違いは何ですか?
デシジョンツリー(ランダムフォレストなど)や線形回帰分析などの方法が役立ちます。たとえば、ランダムフォレストの特徴の重要性や線形回帰の近似係数を調べて、これらのグループを区別するものを理解し、特徴と母集団の関係を調査できます。
このルートに進む前に、ここで自分の選択肢を理解したいと思います。これは、良い方法と最新の方法と悪い方法の違いです。私の目標はそれ自体が予測ではなく、グループ間の有意差をテストして見つけることです。
この問題に対処するためのいくつかの原則的なアプローチは何ですか?
ここに私が持っているいくつかの懸念があります:
線形回帰分析のような方法は、(2)に完全に答えない場合がありますよね?たとえば、1回の近似はいくつかの違いを見つけるのに役立ちますが、すべての重要な違いを見つけることはできません。たとえば、多重共線性により、すべての特徴がグループ間でどのように変化するかを見つけることができなくなる可能性があります(少なくとも1回の近似で)。同じ理由で、ANOVAは(2)についても完全な回答を提供できないと思います。
予測アプローチがどのように答えるかは完全には明らかではありません(1)。たとえば、どの分類/予測損失関数を最小化する必要がありますか?そして、フィットした後、グループが大幅に異なるかどうかをどのようにテストしますか?最後に、(1)で得られる答えが、使用する特定の分類モデルセットに依存する可能性があることを心配しています。