2つのデータセットのレコードを名、姓、および誕生年でリンクすることに興味があります。これはEMアルゴリズムで実行できますか?
例として、1番目のレコードとして、Carl McCarthy、1967を考えます。2番目のデータセット内のすべてのレコードを検索し、名とカールの間のjaro-winkler距離と姓とマッカーシーの間のjaro-winkler距離を割り当てます。これらの距離は、誕生年の間の距離と同様に確率的です。これら3つの確率(乗算?平均?)を1に結合します。
次に、決定ルールの部分です。すべての確率を最高から最低にランク付けしましょう。まず、P(最初のヒットは一致)> =しきい値が必要です。次に、P(最初のヒットが一致)/ P(2番目のヒットが一致)> = P(2番目のヒットが一致)が存在する場合のしきい値も必要です。3つ目は、この2番目のデータセットの最初のヒットが、1番目のデータセットの19人のカールマッカーシーと1人以下で一致することです。
これらのしきい値はどのように決定されますか?
私はStataやPerlでのアプローチを好みます。
たとえば、次を参照してください。
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(それでも、理由と方法、および入力と出力が何であるか、および仮定とそれらがどれほど制限的であるかについては、完全には理解していません)。