回帰モデルを組み合わせる方法は？

それぞれがサイズ 3つのデータセットがあるとします。 $n$

=米国のみの人の身長 $y_1$

=全世界の男性の身長 $y_2$

=全世界の女性の身長 $y_3$

そして、因子、、それぞれの線形モデルを構築し： $x_i$ $i = 1,..., k$

$\hat{y}_{j} = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + \epsilon_{j}$

OLSのための通常の特性を有します。また、複数の回帰で係数使用する場合があります。 $\epsilon$ $x_i$

私の質問は、次の推定値を取得できるように回帰を組み合わせるにはどうすればよいですか。

=米国のみの男性の身長 $y_{12}$

=米国のみの女性の身長 $y_{13}$

データがありません

私はおそらく何らかの重み付けを考えました：

$\hat{y}_{12} = w_{1} \hat{y}_{1} + (1 - w_{1}) \hat{y}_{2}$

$w_1$

— J4y
ソース

答えになるほどしっかりしたものはありませんが、コメントとして：最初に頭に浮かぶのは、単一の階層（混合）回帰を使用することです。しかし、私は実際にランダムな効果が何であるかを理解することができないので、おそらくそれはうまくいきません。とはいえ、私はそのアイデアをそこに捨てると思いました。

— Wayne

y_{12}

$y_{12}$

私の最初の考えは、セックスによる切片を使ったyでしheight ~ f1 + f2 + f3 + (1 | sex)た-Rパッケージのようなものlmer

— ウェイン

個々の男性と女性のそれぞれの身長の推定（分類問題の詳細）が必要か、または各性別の身長の分布を特徴付けるかは明確ではありません。後者を想定します。また、モデルで使用している追加情報を指定しないため、身長データ（および米国以外の市民の場合は性別データ）しかない場合のみに対応します。

男性と女性の身長の分布は合理的に異なるため、米国の高さデータのみに分布の混合を適合させることをお勧めします。これにより、2つの分布のパラメーターが推定されます。これらのパラメーターを合計すると、データの変動を最もよく表します。これらの分布のパラメーター（ガウス分布は正常に機能するため、平均と分散）により、必要な情報が得られます。R はこれをパッケージ化しmixtools、mixdistこれを可能にします。他にもたくさんあると思います。

この解決策は奇妙に思えるかもしれません。それは、各個人の性別と身長を知っている米国外からのすべての情報が除外されるためです。しかし、私はそれが正当化されると思います：

1）男性は女性よりも平均的に背が高いという非常に強い事前の予想があります。ウィキペディアの世界の平均的な身長のリストは、女性が男性よりも背が高い国や地域でさえ示していません。したがって、平均高さがより高い分布の正体は、本当に疑わしいものではありません。

2）米国外のデータからより具体的な情報を統合するには、性別と身長の共分散が米国外と内部で同じであるという仮定を行うことが必要になる可能性があります。しかし、これは完全に真実ではありません- 同じウィキペディアのリストは、男性と女性の身長の比率が約1.04と1.13の間で変化することを示しています。

3）さまざまな国の人々は高さの分布にも幅広いばらつきがあるため、国際データの分析ははるかに複雑になる可能性があります。したがって、分布の混合の混合のモデル化を検討する必要がある場合があります。これは米国でも当てはまるかもしれませんが、オランダ語（平均高さ：184 cms）とインドネシア語（平均高さ：158 cms）を含むデータセットよりも問題が少ないようです。そして、それらは国レベルの平均です。サブポピュレーションはある程度異なります。

— mkt-モニカの復活
ソース