1
重複排除の最先端
レコード重複排除の最新の方法は何ですか?重複排除は、レコードリンケージ、エンティティ解決、ID解決、マージ/パージとも呼ばれます。たとえば、CBLOCK [1]について知っています。 回答にメソッドを実装する既存のソフトウェアへの参照も含まれていれば幸いです。たとえば、Mahoutはキャノピークラスタリングを実装していることを知っています。Luceneを使用するDukeもあります。 重複排除には多くの商用システムがあります。それらがどのように機能し、どれだけ効率的であるかを知ることは価値があるでしょう。 単一のデータセット内の重複排除と、異なるソースからの複数のデータセット間のリンクの両方に興味があります。大量のデータを処理する効率と能力も重要です。 [1] CBLOCK:大規模な重複排除タスクの自動ブロックメカニズム