データ匿名化ソフトウェア


13

優れたデータ匿名化ソフトウェアを知っている人はいますか?または、データの匿名化を行うRのパッケージでしょうか?明らかに、解読不可能な匿名化は期待していません-難しくしたいだけです。


6
あなたのデータは何ですか?匿名化されたデータをどうしますか?
ピータースミット

回答:



8

警告:データの価値をあまり失うことなく、再識別(匿名化)を防ぐ方法でデータを匿名化することは非常に難しいことに注意してください。これは、考えずにソフトウェアを投げつけるだけの状況ではありません。人々の匿名性を保護するには、慎重に考える必要があります。たとえば、なぜこれが簡単ではないのかについてのより慎重な説明については、このペーパーを参照してください。

警告ストーリーの例は、一見匿名化されたデータセットがNetflixユーザーのIDに実際にリンクされたNetflixチャレンジです。より洗練された分析による個人。別の例はあることしかし、プライバシーの研究者が発見したなどの名前、住所、SSNのを、除去することによって、それを匿名化した後、健康保険手数料は、すべての状態の従業員に関するデータを発表したマサチューセッツ州、からであることが再認識個人にまだ可能でしたデモとして、知事の健康記録を特定する方法を示しました。彼女は後に、例えば、ほとんどの人が郵便番号(または国勢調査地区)、生年月日、性別だけで一意に識別できることを示しました。これらは、データを熱心に匿名化する人々の物語でした。彼らは匿名化の良い仕事をしたと思っていたが、この問題がいかに難しいかを知らなかった。 これらの注意事項は、一時停止する必要があります。

これらの理由により、この分野での経験がない場合は、自分でデータセットを匿名化することはお勧めしません。

重要:データを匿名化するために必要な手法は、所有しているデータの種類と使用しているアプリケーションドメインに大きく依存する可能性があります。残念ながら、この情報は提供しませんでした。その結果、データセットを匿名化する方法について適切なアドバイスを提供することはほとんど不可能です。

この答えを役に立たないと思うのは魅力的かもしれません。「喜んで、心配しないで、この魔法のソフトウェアをあなたのデータに投げて、考える必要はない」と言っているので、待ってください、これは一見すると表示よりも注意が必要です。」このメッセージはあまり人気がないかもしれませんが、これは人々が聞く必要があるメッセージだと思います。



3

1つのアプローチは、ブルームフィルターを使用することです。JavaおよびPythonのプログラムについては、SAFELINKプロジェクトのWebサイトを確認してください。方法を説明する論文はこちら

ANU Data Mining Groupによって開発されたn-gramを使用したレコードリンケージのコンテキストでの文字列の匿名化への興味深いアプローチもあります。説明とサンプルPythonコードを含むペーパーは、ここから入手できます

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.