名前からどれだけの情報を抽出できますか?


11

名前:最初に、おそらくミドルネームと姓。

公開されているデータセットを使用して、名前からどれだけの情報をマイニングできるか知りたいです。米国国勢調査データを使用して、低入力(入力によって異なります)の間のどこでも以下を取得できることを知っています。1)性別。2)レース。

たとえばFacebookは、それを正確に使用して、まともなレベルの正確さで、サイトのユーザーの人種分布を見つけました(https://www.facebook.com/note.php?note_id=205925658858)。

他に何が採掘できますか?私は具体的なものを探しているわけではありません。これは私の好奇心を和らげるための非常に自由な質問です。

私の例は米国固有のものなので、名前は米国にいる誰かの名前であると想定します。しかし、他の国で公開されているデータセットを知っている人がいれば、私もそれらを受け入れるだけではありません。

これがこの場所に適しているかどうかはよくわかりません。そうでない場合は、誰かが私をより適切な場所に案内してくれるとありがたいです。

これが面白い質問だといいのですが、これは適切な場所です!


2
おそらく、適切なマッチングデータを取得できれば、地理的位置についても何かを取得できますか?また、時間の経過に
伴う

1
転送された質問を複製とマージしました。

回答:


12

これは深刻な答えではありませんが、私は1年前に読んだ本から何かを思い出しました。名前から人について言うことができることに専念しているFreakonomicsの章があります。この章は、著者の研究論文に基づいています特徴的な黒の名前の原因と結果

この記事の抜粋または要約を見つけたと思います

データは、平均して、はっきりとした黒の名前を持つ人(イマニという名前の女性でも、デショーンという名前の男性でも)は、モリーという名前の女性やジェイクという名前の男性よりも人生の結果が悪いことを示しています。しかし、それは彼または彼女の名前のせいではありません。2人の黒人の少年、ジェイクウィリアムズとデショーンウィリアムズが同じ近所で生まれ、同じ家族的および経済的状況にある場合、彼らはおそらく同じような人生の結果をもたらすでしょう。しかし、息子にジェイクという名前の親は、同じ地域に住んでいる傾向がなく、経済状況を息子のデショーンという名前の親と共有する傾向はありません。そのため、平均して、ジェイクという少年は、デショーンという少年よりも多くのお金を稼ぎ、より多くの教育を受ける傾向があります。DeShawn '


4

ファーストネームから、地域、年齢、第一世代の移民ステータスを予測します。姓から、元のパトロニムの地理的な場所を予測できます。正式名称については、社会的および経済的地位を予測できます(サーストンハウエルIII)。


ギリガン島のキャラクターのこのサイトでの最初の言及のためだけに+1。
rolando2

4

ここで他の提案を追加するために、家族データの最大のソースの1つは、そこにある系図サイトのラフトです。ほとんどの西洋人はおそらく一部の家族のメンバーによって遠くにまたは他の方法でリストされていると思います。そのような包含には、通常、包括的な家系図が添付され、場所、出生の詳細などが含まれます。非常に有益です。

そのデータをFacebookのフレンドグラフとクロスマッチングする場合、人々は兄弟/いとこ(および場合によっては親/子供)を追加する傾向があるため、選挙区の役割とディレクトリで位置データを使用すると、通常、一般的な名前でも人々を特定できます。驚くほど大量のデータを取得します。


3

Freakonomicsの最後の章(2005年、Steven D. LevittとStephen J. Dubner)は、特に社会経済的地位と人種に関連する名前について、魅力的な議論をしています。

彼らは姓のFBの分析とうまく相関するかもしれないしそうでないかもしれない名のリストを持っています。また、名前の選択がどのように(時を超えて)異時的に変化するかについても説明します。

誰が知っているか-親の選択名は、人々が国勢調査で報告したものよりも正確かもしれません。


3

上記の良い提案がたくさんあるので、興味深い逸話に触れます。企業名の研究室(現在は無名のままです)の夏の学生(現在は著名なコンピューターサイエンティスト)は、会社のオンライン電話帳のデータを調べ、名前からの文字のNグラムを使用して給与等級の予測モデルを作成しました。最強の予測因子は、ez_が低い給与等級を示したことであり、彼が話をするように勧められなかったと私が想像する結果


2

あなたはおそらく見つけることができます:

  1. 職業と職歴。専門家のディスカッションに参加している場合(現在の仕事は、通常、電子メールまたは署名のドメイン名から確認できます。検索すると、過去の仕事も明らかになります)
  2. 親戚、ソーシャルネットワークでプロフィールを維持している場合。
  3. 現在の場所、少なくとも都市まで。
  4. 民族的背景、明確な名前がある場合(つまり、「Lubomir」という名前の誰かがおそらくスラブヨーロッパの国の1つに接続されているなど)。
  5. ソーシャルネットワークからの生年月日-人々は生年月日またはその前後に人を祝福する傾向があり、運が良ければ、25、30、35歳になる年も取得できます。問題の人でない場合。
  6. 学歴-LinkedInなどから
  7. 趣味、好きなスポーツチームなど
  8. もしペット愛好家なら、彼はおそらくすべてのペットをソーシャルネットワークにも載せているでしょう。

つまり、パスワードや秘密の質問などには、上記のリストの何も使用しないでください。


あなたと同じ名前の人はどうですか...そこには多くの「Dean Harding」がいますが、そのうちの1人はプロのサッカー選手でさえありました。Twitterの "DeanHarding"は私ではありません。Facebookには何百もの "Dean Harding"などがあります...

もちろん、それは偶然次第です。職業や場所などで大体同じだとわかりますが、同姓同名で同じ職業で大体同じ地域に住んでいる人が3人いるケースも見ました。その後、もちろんそれは難しくなります:)

2

ダーデンとロビンソン(1976)は、男性のファーストネームに関する人々の関連付けを導く言語構造を見つけようとしました。彼らは、2つの科目グループ(社会学の学生と海軍将校)に、ソフトタフ、一般的高貴、都市農村などの意味論的差異に沿って一般的なアメリカ人の名前を評価するように依頼しました。彼らはまた、名前の異なるペア間の類似性の判断を求め、検証により、彼らはTORSCA MDS手順を使用して、セマンティックディファレンシャルからの平均と3次元と4次元の両方のDソリューションで見つけた次元を関連付けました。

著者らは、3次元ソリューションがOsgoodの古典的なトリオの活性化、評価、および効力にほぼ対応していることを発見しました。4次元では、スペースはデータに少しよくフィットし、ここでは、構造は「文字」、「成熟度」、「社交性」、および「男らしさ」に応じて解釈されましたが、これらのスケールは、著者らは示唆した。この研究から得られた驚くべき発見の1つは、少なくともこれら2つの小さなサンプル(n = 83と21)では、名前とニックネームの区別に対応するディメンションが表示されなかったことです。

ダーデン、DK、およびロビンソン、IE(1976)。男性の名の多次元スケーリング:社会言語学的アプローチ。 ソシオメトリー、 39、4、422-431。


1

見つけることができる情報の量は、人種や性別だけでなく、あらゆる種類の個人情報にまで大きく異なります。情報を入手する最善の方法は、Facebookなどのソーシャルネットワークサイトです。一般的に、これらのサイトは、センサスデータベースよりも多くの情報を提供します。


1

使用しているソースに応じて、さまざまな情報を入手できます。国勢調査データは明白なものです。Facebook、MySpace、その他のソーシャルネットワーキングサイトから情報を取得することもできます。また、公開ニュースアーカイブで名前の言及を検索することもできます。多分いくつかの州が持っているそれらの卑劣な不動産サイトです。

何ができるかの実世界の例が必要な場合は、pipl.comをご覧ください。


名前付きの国勢調査データがどこにあるか(世界中のどこにでも)見つけることができますか?
whuber

1

学位、運転免許証、警察の記録を探すことができます(正しい翻訳ですか?)。フェイスブックを使用すると、趣味、スポーツ、好きな音楽に関する情報を見つけることができます。また、特定の名前を持つユーザーの他のソーシャルメディアの割合を探すこともできます。(この結果に興味があります)



0

個人の場所について何か知っている場合、情報源の1つは有権者登録データベースです。有権者登録データベースの多くは利用可能です(有料、それらを購入してオンラインクエリアクセスを有料で提供している企業もあります)。有権者登録データベースには、個人の住所や生年月日が含まれている場合があります。その情報により、他のデータベースで個人を検索できる場合があります。

ただし、これがどれだけ役立つかには制限があります。これは、その人が住んでいる市または郡を知っていて、その名前がかなり変わっている場合に役立ちます。しかし、これが一般的な名前である場合、または彼らがどこに住んでいるのかわからない場合は、おそらく役に立たないでしょう。


0

他の多くの有用な属性を含む公的にアクセス可能なデータの最大の情報源の1つは、財産所有権の記録のための郡書記官事務所です。問題はすべてのデータをまとめることに関係します...中央データベースを提供する州もあれば、提供しない州もあります。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.