さまざまなソースのデータを組み合わせたい。
化学的性質(例えば分配係数)を推定したいとしましょう:
いくつかの経験的データがありますが、平均値周辺の測定誤差により変動します。
次に、他の情報から推定値を予測するモデルがあります(モデルには不確実性もあります)。
これら2つのデータセットを組み合わせるにはどうすればよいですか?[結合された推定値は、別のモデルで予測子として使用されます]。
メタ分析とベイズ法が適しているようです。しかし、それを実装する方法やアイディアはあまり見つかりませんでした(私はRを使用していますが、PythonとC ++にも精通しています)。
ありがとう。
更新
わかりました、これはより現実的な例です:
化学物質の毒性を推定するために(通常、 =動物の50%が死亡する濃度)ラボ実験を行います。幸いにも、実験の結果はデータベース(EPA)に収集されます。
殺虫剤Lindaneの値をいくつか示します。
### Toxicity of Lindane in ug/L
epa <- c(850 ,6300 ,6500 ,8000, 1990 ,516, 6442 ,1870, 1870, 2000 ,250 ,62000,
2600,1000,485,1190,1790,390,1790,750000,1000,800
)
hist(log10(epa))
# or in mol / L
# molecular weight of Lindane
mw = 290.83 # [g/mol]
hist(log10(epa/ (mw * 1000000)))
ただし、化学的特性(QSAR)から毒性を予測するために利用できるいくつかのモデルもあります。これらのモデルの1つは、オクタノール/水分配係数()から毒性を予測し。
Lindaneの分配係数はlog〜K_あり、予測される毒性はです。l o g L C 50 [ m o l / L ] = − 4.902
lkow = 3.8
mod1 <- -0.94 * lkow - 1.33
mod1
これら2つの異なる情報(実験室実験とモデル予測)を組み合わせる良い方法はありますか?
hist(log10(epa/ (mw * 1000000)))
abline(v = mod1, col = 'steelblue')
結合されたは、後でモデルで予測子として使用されます。したがって、単一の(結合された)値は単純なソリューションになります。
ただし、これがモデリングで可能であれば、分布も便利です(方法)。