名前:最初に、おそらくミドルネームと姓。
公開されているデータセットを使用して、名前からどれだけの情報をマイニングできるか知りたいです。米国国勢調査データを使用して、低入力(入力によって異なります)の間のどこでも以下を取得できることを知っています。1)性別。2)レース。
たとえばFacebookは、それを正確に使用して、まともなレベルの正確さで、サイトのユーザーの人種分布を見つけました(https://www.facebook.com/note.php?note_id=205925658858)。
他に何が採掘できますか?私は具体的なものを探しているわけではありません。これは私の好奇心を和らげるための非常に自由な質問です。
私の例は米国固有のものなので、名前は米国にいる誰かの名前であると想定します。しかし、他の国で公開されているデータセットを知っている人がいれば、私もそれらを受け入れるだけではありません。
これがこの場所に適しているかどうかはよくわかりません。そうでない場合は、誰かが私をより適切な場所に案内してくれるとありがたいです。
これが面白い質問だといいのですが、これは適切な場所です!