私はソフトウェアエンジニアなので、始める前に私を許さなければならないより多くの統計を学ぼうとしているので、これは深刻な新しい領域です...
私はPyMCを学び、いくつかの本当に(本当に)単純な例に取り組んできました。私が作業を開始できない(そして関連する例を見つけることができない)1つの問題は、2つの正規分布から生成されたデータにモデルを適合させることです。
1000個の値があるとします。500から発生Normal(mean=100, stddev=20)
し、別の500から生成されましたNormal(mean=200, stddev=20)
。
モデルをそれらに適合させたい場合、つまり、PyMCを使用して2つの平均と単一標準偏差を決定します。私はそれが...
mean1 = Uniform('mean1', lower=0.0, upper=200.0)
mean2 = Uniform('mean2', lower=0.0, upper=200.0)
precision = Gamma('precision', alpha=0.1, beta=0.1)
data = read_data_from_file_or_whatever()
@deterministic(plot=False)
def mean(m1=mean1, m2=mean2):
# but what goes here?
process = Normal('process', mu=mean, tau=precision, value=data, observed=True)
つまり、生成プロセスは通常ですが、muは2つの値のいずれかです。私はちょうど値はから来ているかどうかの間で「決定」を表す方法を知らないm1
かをm2
。
多分私はこれをモデリングするために間違ったアプローチを完全に取っていますか?誰かが私に例を指摘できますか?私はバグとジャグを読むことができるので、何でも本当に大丈夫です。