母集団間の違いを調査する


9

2つの母集団からのサンプルがあるAとしBます:と。これらの母集団は個人で構成されていると仮定し、個人を特徴の観点から説明することにします。これらの機能の一部はカテゴリ型であり(たとえば、機能するように駆動しますか?)、一部は機能的です(高さなど)。これらの機能をと呼びましょう。何百ものこれらの機能(例、n = 200)を収集します。簡単にするために、すべての個人にわたってエラーやノイズがないと仮定しましょう。X1Xn

2つの母集団は異なると仮定します。私たちの目標は、次の2つの質問に答えることです。

  1. それらは実際に大きく異なりますか?
  2. それらの間の大幅な違いは何ですか?

デシジョンツリー(ランダムフォレストなど)や線形回帰分析などの方法が役立ちます。たとえば、ランダムフォレストの特徴の重要性や線形回帰の近似係数を調べて、これらのグループを区別するものを理解し、特徴と母集団の関係を調査できます。

このルートに進む前に、ここで自分の選択肢を理解したいと思います。これは、良い方法と最新の方法と悪い方法の違いです。私の目標はそれ自体が予測ではなく、グループ間の有意差をテストして見つけることです。

この問題に対処するためのいくつかの原則的なアプローチは何ですか?

ここに私が持っているいくつかの懸念があります:

  • 線形回帰分析のような方法は、(2)に完全に答えない場合がありますよね?たとえば、1回の近似はいくつかの違いを見つけるのに役立ちますが、すべての重要な違いを見つけることはできません。たとえば、多重共線性により、すべての特徴がグループ間でどのように変化するかを見つけることができなくなる可能性があります(少なくとも1回の近似で)。同じ理由で、ANOVAは(2)についても完全な回答を提供できないと思います。

  • 予測アプローチがどのように答えるかは完全には明らかではありません(1)。たとえば、どの分類/予測損失関数を最小化する必要がありますか?そして、フィットした後、グループが大幅に異なるかどうかをどのようにテストしますか?最後に、(1)で得られる答えが、使用する特定の分類モデルセットに依存する可能性があることを心配しています。

回答:


5

問題を次のように考えてみましょう。

X=(X1,X2,..Xn)YY=0Y=1

  • H0
  • H0XY=0XY=1
  • H0XY
  • H0f{0,1}f(X)Y

YX

これに基づいて何かを試すことが可能です。元のデータセットをトレーニングセットとテストセットに分割します。次に:

  • fYX
  • αf(X)Y

f(X)H0αH0

α


ブノワ(+1)に感謝します。これは質問(1)に当てはまるようです。これまたは代替のアプローチで(2)に取り組む方法に関するアイデアはありますか?
Amelio Vazquez-Reina

α

α

また、RFの私の希望は、違いを捉える機能を特定することです(つまり、(2)に対して少なくとも部分的な回答を得る)。それらは解釈可能性には理想的ではありません(ただし、高さを制限することで解釈できると思います)。どちらの場合でも、DTについては同じことが言えますよね?あなたのコメントをよく理解していることを確認します。
Amelio Vazquez-Reina

αn1(1α)n

3

データで使用できる機能の数は言いません。少数、多数、大規模ですか?それらが母集団間で同じ特徴であり、すべて同じツール、方法、モダリティを使用して測定されていると想定できますか?そうでない場合は、変数内エラー測定モデルが機能するという大きな問題があります

@benoitsanchezが質問#1)に回答したようです。

Wrt#2)、RFが役立つかどうかはわかりません。一度に1つの機能に適用される一元配置分散分析などのより正式なモデルを使用することにより、機能の母集団間の差の検定を開発できます。テストの大きさとその重要性に基づいて、これらのテストの結果を要約することにより、母集団がフィーチャ間でどのように異なるかを説明するプロファイルが可能になります。これは確かにアドホックでヒューリスティックなソリューションであり、好み、好み、トレーニングに十分厳密ではない場合があります。

ラテックスタイプの表記法が得意ではありません。これらのテストがどのように機能するかを簡単に説明します。最初に、すべての機能を一度に1つずつ渡す、ある種のマクロループを作成します。ループの各パスで、新しい機能はターゲットまたはDVになり、Xはポピュレーションのダミー変数と適切な制御変数で構成されます。各コントロールで同じコントロールが使用されていること、および基になるデータがすべての分散分析でまったく同じであることを確認して、有限データサンプルの変動に起因する変動を排除します。各機能のダミー変数のF検定値を集計します。これにより、機能間の比較を可能にする標準化されたメトリックが提供されます。F検定は、フィットに好ましいベータのでベータ標準化されておらず、個々の機能のユニットおよび標準開発者で表現されています。

最後のコメント「私が(1)で得られる答えが、使用する分類/回帰モデルの特定のセットに依存しているのではないかと心配しています」は常に真実です。回答は、使用するモデルの関数として変わる可能性が非常に高いです。これはまた、適用される統計モデリングの非決定論的な性質に慣れていない、または認識に問題がある、より強く理論的かつ古典的に訓練された統計学者の間で一般的に観察される倦怠感の表現でもあります。これらの症状に対する優れた解毒剤は、エフロンとハスティの最近の本であるComputer Age Statistical Inferenceです。データサイエンスと機械学習の時代である21世紀に、すべての反復、近似、ヒューリスティックな性質を率直に認めることにより、統計モデリングをもたらしますエラー項を持つモデル。この観察に固有の真実を認識するために、ベイジアンである必要はありません。彼らの見解は、たとえば、クロス積行列が反転しない、および/またはいくつかの知識モデルの仮定が満たされない場合に手を上げた、古典的な20世紀の統計的実践の厳格な決定論とは異なる新鮮な視点です。


@DJohnsonに感謝します。「各機能のダミー変数のF検定値を集計する」と言ったとき、正確にはどういう意味ですか?つまり、この結果で正確に何をしますか?また、この文脈でのベータ版とはどういう意味ですか?最後に、この反復的なアプローチは相互作用がないことに限定されないでしょうか?たとえば、元の例を使用して、「運転する個人の身長」に大きな違いがある場合はどうなるでしょうか。
Amelio Vazquez-Reina

また、多元配置分散分析を行うのではなく、なぜ一元配置分散分析テストを行うのですか?
Amelio Vazquez-Reina

2
よい質問です。結果として得られる記述プロファイルに関して、私はF検定と各特徴の関連する有意性またはp値を単純に記録し、それらを高から低にランク付けすることを考えていました。F検定はカイ2乗の比率であり、したがって対称ではないため、結果の方向性を理解するのに役立つように、母平均をレポートに追加できます。あるいは、t検定はこの理解に役立ちます。このプロファイルは、基になる人口の関数としての機能の大きさまたは強さの両方を理解するのに役立ちます。
マイクハンター

前述のように、制御変数は必要に応じて追加する必要があります。これらは、すべてのモデルで一貫して使用されている限り、相互作用を含むことができます。追加の因子を導入すると、定義により、モデルが一方向から重回帰または分散分析に拡張されます。
マイクハンター
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.