レコードのリンクにEMアルゴリズムを使用する

9

2つのデータセットのレコードを名、姓、および誕生年でリンクすることに興味があります。これはEMアルゴリズムで実行できますか？

例として、1番目のレコードとして、Carl McCarthy、1967を考えます。2番目のデータセット内のすべてのレコードを検索し、名とカールの間のjaro-winkler距離と姓とマッカーシーの間のjaro-winkler距離を割り当てます。これらの距離は、誕生年の間の距離と同様に確率的です。これら3つの確率（乗算？平均？）を1に結合します。

次に、決定ルールの部分です。すべての確率を最高から最低にランク付けしましょう。まず、P（最初のヒットは一致）> =しきい値が必要です。次に、P（最初のヒットが一致）/ P（2番目のヒットが一致）> = P（2番目のヒットが一致）が存在する場合のしきい値も必要です。3つ目は、この2番目のデータセットの最初のヒットが、1番目のデータセットの19人のカールマッカーシーと1人以下で一致することです。

これらのしきい値はどのように決定されますか？

私はStataやPerlでのアプローチを好みます。

たとえば、次を参照してください。

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf

（それでも、理由と方法、および入力と出力が何であるか、および仮定とそれらがどれほど制限的であるかについては、完全には理解していません）。

— user1690130
ソース

Stataでreclinkを使用することを考えましたか？

— Dimitriy V. Masterov

4

確かに、EMアルゴリズムは確率的リンクに使用されています。このテーマに関する記事はたくさんありますが、理論上の詳細については、ウィンクラーによる次の記事が参考になるでしょう。

http://www.census.gov.edgekey.net/srd/papers/pdf/rr2000-05.pdf

また、Kevin Campbellが開発したデータリンクソフトウェアもあり、ここから入手できます。

http://the-link-king.com/

ソフトウェアは無料でダウンロードでき、Kevin Campbellは有料でサポートを提供しています。コードはSASで記述されているため、基本SASパッケージが必要です。

— RobertF
ソース

ありがとうございました！私はウィンクラーの2つの論文を読みましたが、完全には理解していませんでした。その紙からEMを集めました。また、SASの使い方がわかりません。私はperlにEMモジュールがあることを知っていますが、これが使用されますが、なぜEMが適切であるか、またはその使用方法はわかりません。概念的には、EMは上記の質問にどのように答えますか？

— user1690130 2013

EMアルゴリズムは、2つの異なるレコードを誤ってリンクする、または2つの一致するレコードを誤ってリンクしないという未知の（または「潜在的な」）確率を考慮に入れるため、ポジティブマッチの可能性をモデル化するのに役立ちます。これらの確率の推定値は、尤度関数を最大化するために、アルゴリズムの各ステップで調整されます。

— RobertF 2013

どのような入力を提供しますか？一変量確率とラベル？そして、それは最適なマッチを吐き出しますか？

— user1690130 2013

0

以下との連携を記録するソフトウェアRELAISがあります。

6）確率的記録のリンク（EM（期待値最大化）を介したFellegiおよびSunterモデルパラメーターの推定）。

RELAISはJavaとRで実装されており、データベースアーキテクチャ（MySQL）を備えています。

ESSnetデータ統合プロジェクトから入手可能なレコードリンクに関するドキュメントが他にもあります。

— ジュフリオ
ソース