動機
私は個人を特定できる情報(PII)を含むデータセットを使用しており、データセットの一部を第三者と共有する必要がある場合があります。ここでの通常のアプローチは、データを完全に保留するか、場合によってはその解像度を下げることです。たとえば、正確な住所を対応する郡または国勢調査区に置き換える。
これは、サードパーティがタスクにより適したリソースと専門知識を持っている場合でも、特定のタイプの分析と処理を社内で行う必要があることを意味します。ソースデータは公開されていないため、この分析と処理の進め方には透明性がありません。その結果、QA / QCを実行したり、パラメータを調整したり、改良したりするサードパーティの能力は非常に制限される場合があります。
機密データの匿名化
1つのタスクには、エラーと矛盾を考慮しながら、ユーザーが送信したデータで名前で個人を識別することが含まれます。個人は、ある場所では「デイブ」、別の場所では「デビッド」として記録される場合があります。営利団体はさまざまな略語を使用でき、常にいくつかのタイプミスがあります。名前が異なる2つのレコードが同じ個人を表す場合を判断し、それらに共通のIDを割り当てるいくつかの基準に基づいてスクリプトを開発しました。
この時点で、名前を控えてこの個人ID番号で置き換えることにより、データセットを匿名にすることができます。しかし、これは受信者がマッチの強さなどについてほとんど情報を持っていないことを意味します。身元を明かすことなく、できるだけ多くの情報を渡すことができるようにしたいと思います。
機能しないもの
たとえば、編集距離を維持しながら文字列を暗号化できると便利です。このように、サードパーティは独自のQA / QCの一部を実行したり、PIIにアクセスしたり(リバースエンジニアリングを実行したりすることなく)独自の追加処理を選択したりできます。おそらく、編集距離<= 2で社内の文字列を照合し、受信者は編集距離<= 1でその許容範囲を狭めることの意味を調べたいと考えています。
しかし、私がこれに慣れている唯一の方法はROT13(より一般的には、任意のシフト暗号)であり、暗号化とは見なされません。それは、名前を逆さまに書いて、「あなたは紙をひっくり返さないと約束しますか?」
別の悪い解決策は、すべてを短縮することです。「Ellen Roberts」は「ER」などになります。これは、公開データに関連するイニシャルが個人の身元を明らかにする場合と、あいまいすぎる場合があるため、不十分なソリューションです。「ベンジャミン・オセロ・エイムズ」と「バンク・オブ・アメリカ」の頭文字は同じになりますが、それ以外の名前は異なります。だから、私たちが望むもののどちらもしません。
洗練されていない代替方法は、名前の特定の属性を追跡するために追加フィールドを導入することです。例えば:
+-----+----+-------------------+-----------+--------+
| Row | ID | Name | WordChars | Origin |
+-----+----+-------------------+-----------+--------+
| 1 | 17 | "AMELIA BEDELIA" | (6, 7) | Eng |
+-----+----+-------------------+-----------+--------+
| 2 | 18 | "CHRISTOPH BAUER" | (9, 5) | Ger |
+-----+----+-------------------+-----------+--------+
| 3 | 18 | "C J BAUER" | (1, 1, 5) | Ger |
+-----+----+-------------------+-----------+--------+
| 4 | 19 | "FRANZ HELLER" | (5, 6) | Ger |
+-----+----+-------------------+-----------+--------+
どの品質が面白いかを予測する必要があり、比較的粗いため、これを「不法」と呼びます。名前が削除された場合、行2と3の間の一致の強さ、または行2と4の間の距離(つまり、一致にどれだけ近いか)について合理的に結論付けることはできません。
結論
目標は、元の文字列をわかりにくくする一方で、元の文字列の有用な品質をできるだけ多く維持するような方法で文字列を変換することです。復号化は、データセットのサイズに関係なく、不可能であるか、事実上不可能であるほど非実用的である必要があります。特に、任意の文字列間の編集距離を保持する方法は非常に便利です。
関連する可能性のある論文をいくつか見つけましたが、それらは私の頭上にあります。