データ内のユーザー名を匿名化するためのベストプラクティスは何ですか?


8

データマイニング技術を使用してさらに分析するために、元のテキストデータを他の学生に共有するように依頼するプロジェクトに取り組んでいます。提出物で学生名を匿名化するのが適切だと思います。

学生が自分の作品を提出し、バックエンドスクリプトが匿名化されたIDを挿入するURLのより優れたソリューションを別にして、自分の名前を匿名化するために、学生が自分で実装するようにどのようなソリューションを指示できますか?

私はまだこの分野の初心者です。私は標準が何であるか知りません。私はその解決策がハッシュアルゴリズムかもしれないと考えていました。2人が同じ偽の名前を選ぶことができるので、それは偽の名前を作るよりも良い解決策のように思えます。可能性のある人々は同じ偽の名前を選ぶことができます。私が知っておくべき懸念のいくつかは何ですか?


2
なぜ名前を収集するのですか?
Emre

レコードは一意である必要があり、誰もが自分の名前を知っています(それは皮肉なことに聞こえますが、それは単なる単純さです)。
xtian 2014

回答:


5

名前を識別子として使用しているのではないかと思いました。すべきではありません。それらは一意ではなく、このプライバシー問題を引き起こします。代わりに、ハッシュ化された形式で保存されているIDから確認できる学生番号を使用してください。学生の姓を塩として使用します(ID番号と姓を連結してハッシュされる文字列を形成します)。


要点はわかりますが、明確にするために、2つのオプションを混在させているようです。1つ目は、学生IDと名前を一緒に使用するオプションです。これは、おそらく一意であり、インターネットからデータを取得する人にはわかりにくいものです。さらに、このエンコードされたID + Lnameを取得するための2番目のオプションもあり、それも同様です。さらに、姓の塩を使用するためのさらなる対策。言い換えれば、ID + Lnameが許容できる難読化になる可能性があると私が想像するプレコンピュータですか?
xtian、

いいえ、PINと名前を取得することはしませんでした。PINは既に一意であるため、姓をソルトとして使用することは単なる提案でした。ユーザー固有の情報を使用できます。
Emre、2014

2

心理学の標準的な方法(さまざまな測定値をリンクするために参加者をコーディングする場合)は、参加者に母親の旧姓のイニシャルと誕生日を、たとえばXX-YYMMDDの形式で選択させることです。

この場合、コースはまだ競合に遭遇する可能性があります。繰り返しになりますが、他のすべての生徒を知らなくても生徒が実行できる、競合のない確実な匿名化アルゴリズムはないと思います。母親の名前と生年月日は同じ、自分の生年月日は同じ、靴のサイズは同じ、好きなスーパーヒーローのキャラクターなど、私が考えることができるのは(米国)社会保障番号だけですが、あなたは本当にしたくないそれらを使用してください

結論:バックエンドで匿名化。または、@ Emreが示唆しているように、本当に識別子が本当に必要かどうかを考えます。たぶん、DBが生成したインデックスで十分でしょうか?


私はそれらの代替の命名スキームを知りませんでした。ありがとうございました。競合の問題について、SOでの高得点の回答はSHA-1についてこれを示唆しています。 」
xtian 2014
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.