統計とビッグデータ record-linkage

重複排除の最先端

レコード重複排除の最新の方法は何ですか？重複排除は、レコードリンケージ、エンティティ解決、ID解決、マージ/パージとも呼ばれます。たとえば、CBLOCK [1]について知っています。回答にメソッドを実装する既存のソフトウェアへの参照も含まれていれば幸いです。たとえば、Mahoutはキャノピークラスタリングを実装していることを知っています。Luceneを使用するDukeもあります。重複排除には多くの商用システムがあります。それらがどのように機能し、どれだけ効率的であるかを知ることは価値があるでしょう。単一のデータセット内の重複排除と、異なるソースからの複数のデータセット間のリンクの両方に興味があります。大量のデータを処理する効率と能力も重要です。 [1] CBLOCK：大規模な重複排除タスクの自動ブロックメカニズム

13 clustering data-cleaning record-linkage

レコードのリンクにEMアルゴリズムを使用する

2つのデータセットのレコードを名、姓、および誕生年でリンクすることに興味があります。これはEMアルゴリズムで実行できますか？例として、1番目のレコードとして、Carl McCarthy、1967を考えます。2番目のデータセット内のすべてのレコードを検索し、名とカールの間のjaro-winkler距離と姓とマッカーシーの間のjaro-winkler距離を割り当てます。これらの距離は、誕生年の間の距離と同様に確率的です。これら3つの確率（乗算？平均？）を1に結合します。次に、決定ルールの部分です。すべての確率を最高から最低にランク付けしましょう。まず、P（最初のヒットは一致）> =しきい値が必要です。次に、P（最初のヒットが一致）/ P（2番目のヒットが一致）> = P（2番目のヒットが一致）が存在する場合のしきい値も必要です。3つ目は、この2番目のデータセットの最初のヒットが、1番目のデータセットの19人のカールマッカーシーと1人以下で一致することです。これらのしきい値はどのように決定されますか？私はStataやPerlでのアプローチを好みます。たとえば、次を参照してください。 http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf （それでも、理由と方法、および入力と出力が何であるか、および仮定とそれらがどれほど制限的であるかについては、完全には理解していません）。

9 machine-learning stata expectation-maximization record-linkage perl

タグ付けされた質問 「record-linkage」

タグ付けされた質問「record-linkage」