タグ付けされた質問 「perl」

2
レコードのリンクにEMアルゴリズムを使用する
2つのデータセットのレコードを名、姓、および誕生年でリンクすることに興味があります。これはEMアルゴリズムで実行できますか? 例として、1番目のレコードとして、Carl McCarthy、1967を考えます。2番目のデータセット内のすべてのレコードを検索し、名とカールの間のjaro-winkler距離と姓とマッカーシーの間のjaro-winkler距離を割り当てます。これらの距離は、誕生年の間の距離と同様に確率的です。これら3つの確率(乗算?平均?)を1に結合します。 次に、決定ルールの部分です。すべての確率を最高から最低にランク付けしましょう。まず、P(最初のヒットは一致)> =しきい値が必要です。次に、P(最初のヒットが一致)/ P(2番目のヒットが一致)> = P(2番目のヒットが一致)が存在する場合のしきい値も必要です。3つ目は、この2番目のデータセットの最初のヒットが、1番目のデータセットの19人のカールマッカーシーと1人以下で一致することです。 これらのしきい値はどのように決定されますか? 私はStataやPerlでのアプローチを好みます。 たとえば、次を参照してください。 http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf (それでも、理由と方法、および入力と出力が何であるか、および仮定とそれらがどれほど制限的であるかについては、完全には理解していません)。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.