個々の男性と女性のそれぞれの身長の推定(分類問題の詳細)が必要か、または各性別の身長の分布を特徴付けるかは明確ではありません。後者を想定します。また、モデルで使用している追加情報を指定しないため、身長データ(および米国以外の市民の場合は性別データ)しかない場合のみに対応します。
男性と女性の身長の分布は合理的に異なるため、米国の高さデータのみに分布の混合を適合させることをお勧めします。これにより、2つの分布のパラメーターが推定されます。これらのパラメーターを合計すると、データの変動を最もよく表します。これらの分布のパラメーター(ガウス分布は正常に機能するため、平均と分散)により、必要な情報が得られます。R はこれをパッケージ化しmixtools
、mixdist
これを可能にします。他にもたくさんあると思います。
この解決策は奇妙に思えるかもしれません。それは、各個人の性別と身長を知っている米国外からのすべての情報が除外されるためです。しかし、私はそれが正当化されると思います:
1)男性は女性よりも平均的に背が高いという非常に強い事前の予想があります。ウィキペディアの世界の平均的な身長のリストは、女性が男性よりも背が高い国や地域でさえ示していません。したがって、平均高さがより高い分布の正体は、本当に疑わしいものではありません。
2)米国外のデータからより具体的な情報を統合するには、性別と身長の共分散が米国外と内部で同じであるという仮定を行うことが必要になる可能性があります。しかし、これは完全に真実ではありません- 同じウィキペディアのリストは、男性と女性の身長の比率が約1.04と1.13の間で変化することを示しています。
3)さまざまな国の人々は高さの分布にも幅広いばらつきがあるため、国際データの分析ははるかに複雑になる可能性があります。したがって、分布の混合の混合のモデル化を検討する必要がある場合があります。これは米国でも当てはまるかもしれませんが、オランダ語(平均高さ:184 cms)とインドネシア語(平均高さ:158 cms)を含むデータセットよりも問題が少ないようです。そして、それらは国レベルの平均です。サブポピュレーションはある程度異なります。