レコードのリンクにEMアルゴリズムを使用する


9

2つのデータセットのレコードを名、姓、および誕生年でリンクすることに興味があります。これはEMアルゴリズムで実行できますか?

例として、1番目のレコードとして、Carl McCarthy、1967を考えます。2番目のデータセット内のすべてのレコードを検索し、名とカールの間のjaro-winkler距離と姓とマッカーシーの間のjaro-winkler距離を割り当てます。これらの距離は、誕生年の間の距離と同様に確率的です。これら3つの確率(乗算?平均?)を1に結合します。

次に、決定ルールの部分です。すべての確率を最高から最低にランク付けしましょう。まず、P(最初のヒットは一致)> =しきい値が必要です。次に、P(最初のヒットが一致)/ P(2番目のヒットが一致)> = P(2番目のヒットが一致)が存在する場合のしきい値も必要です。3つ目は、この2番目のデータセットの最初のヒットが、1番目のデータセットの19人のカールマッカーシーと1人以下で一致することです。

これらのしきい値はどのように決定されますか?

私はStataやPerlでのアプローチを好みます。

たとえば、次を参照してください。

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf

(それでも、理由と方法、および入力と出力が何であるか、および仮定とそれらがどれほど制限的であるかについては、完全には理解していません)。


Stataでreclinkを使用することを考えましたか?
Dimitriy V. Masterov

回答:


4

確かに、EMアルゴリズムは確率的リンクに使用されています。このテーマに関する記事はたくさんありますが、理論上の詳細については、ウィンクラーによる次の記事が参考になるでしょう。

http://www.census.gov.edgekey.net/srd/papers/pdf/rr2000-05.pdf

また、Kevin Campbellが開発したデータリンクソフトウェアもあり、ここから入手できます。

http://the-link-king.com/

ソフトウェアは無料でダウンロードでき、Kevin Campbellは有料でサポートを提供しています。コードはSASで記述されているため、基本SASパッケージが必要です。


ありがとうございました!私はウィンクラーの2つの論文を読みましたが、完全には理解していませんでした。その紙からEMを集めました。また、SASの使い方がわかりません。私はperlにEMモジュールがあることを知っていますが、これが使用されますが、なぜEMが適切であるか、またはその使用方法はわかりません。概念的には、EMは上記の質問にどのように答えますか?
user1690130 2013

EMアルゴリズムは、2つの異なるレコードを誤ってリンクする、または2つの一致するレコードを誤ってリンクしないという未知の(または「潜在的な」)確率を考慮に入れるため、ポジティブマッチの可能性をモデル化するのに役立ちます。これらの確率の推定値は、尤度関数を最大化するために、アルゴリズムの各ステップで調整されます。
RobertF 2013

どのような入力を提供しますか?一変量確率とラベル?そして、それは最適なマッチを吐き出しますか?
user1690130 2013

0

以下との連携を記録するソフトウェアRELAISがあります。

6)確率的記録のリンク(EM(期待値最大化)を介したFellegiおよびSunterモデルパラメーターの推定)。

RELAISはJavaとRで実装されており、データベースアーキテクチャ(MySQL)を備えています。

ESSnetデータ統合プロジェクトから入手可能なレコードリンクに関するドキュメントが他にもあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.