一部の言語では他の言語よりもうまく機能するアプローチがいくつかあります。たとえば、soundex(および別の説明)は、名前の英語の発音用に設計されています。soundexでは、Michael
M240 になります。これにはいくつかの手順があります。
- 最初の文字が分離されます。(
M
およびichael
)
- すべての母音が残りから削除されます(
M
およびchl
)
- 子音が置き換えられます
- 左パッドのゼロ。
-子音の変換のグループ化は、その表音の類似性に基づいてB
、F
、P
とV
するすべてのマップ1
。
そして、これには時間の経過とともに変化があります。名前の綴りが時間の経過とともに変化する可能性があるが、発音は同じままである系図で特に役立ちます。
また、航空会社が名前(アメリカの系譜ではなく)のために開発した一致格付けなどのアプローチもあります。
一致評価アプローチ(MRA)のエンコードは次のとおりです。
- すべての非主要な母音を削除することは(
Michael
なりMchl
とAnthony
なりましたAnthny
)
- doubleの2番目の定数を削除します
- 文字列が6文字より長い場合は、最初の3文字と最後の3文字を使用して、残りの文字列を6文字に減らします。
これに関する完全な仕様はarchive.orgで見つけることができます-「小さくない」ことに注意してください(印刷されたフォームは214ページです)。
比較は、テキストがどのくらいに基づいてマッチングしきい値を持っています。
あり、他の表音アルゴリズムがあまりにも。
そのため、私があなたに勧めるのは、soundexをそのまま使用するか、一致評価アプローチをそのまま使用するか、ルーマニア語の子音とポーランド語の子音に基づいてsoundexを変更することです。
同音で、子音がされていることを覚えておいてくださいグループ化され、(でポーランドm
、n
、ɲ
グループ化するためにすべての鼻音であり、あなたはおそらくグループ、唇、歯、および肺胞破裂音だろう-ことが、彼らは無声または一緒に表明-付与された、私はしないでくださいポーランド語を知っているので、私はただそこに真実ではないことを言っているかどうかわからない)。
次に、データベース内のすべての名前を2つの異なるsoundexシステムに変換し、異なる言語でどの名前の衝突が最も少ないかを見つけます。これにより、異なる名前が与えられます。だからそれSmith
はとして表示されませんSmyth
。
ただし、これは「他の名前と衝突して誤解される可能性が高い名前」のみを解決します。「正しく聞こえ、間違って書き留められた名前」の他の方法を扱っていないため、一般名に注意を向けるべきです。
たとえば、Michael
1950年初頭から1970年後半まで、米国では非常に一般的な名前でした。しかし、何らかの理由で、この名前Micheal
は1950年代に人気がありました(ピーク時には83番目に一般的な名前になりました)。そして、私はMicheal
、名前を挙げられた人々が彼らの名前のスペルを間違えたと確信しています。
したがって、特定の発音の名前の人気を支配する名前が1つある名前に焦点を当てる必要があります。年によって名前のための別のデータ消費者をちらっと見、あなたはそれを見ることができますジャムで始まる名前...少年のためには、混乱しているとJamaal
、Jamal
、Jamar
など。ところで、これらの名前は、のためにわずかに異なるsoundexesを持っているアメリカ(J540
、J540
そしてJ560
- l
そしてr
それらが密接に音声学に関連しているにもかかわらず、異なるグループです)。しかし、日本を言う、から誰かのために、表音地域で唯一の音がある場合l
と、r
アメリカ英語で発音されます。これはまた、知っておくべきsoundexを使用した主要な子音との課題を引き起こす可能性があります(私はかつて、日本の名前のローマ字表記としてリサではなくリサ(「R」)と呼ばれる日本人女性と働いていました)。
私の例は米国向けです。そのデータには簡単にアクセスできます。ポーランドとハンガリー語にはいくつかのことがあり、ハンガリー語の名前の共通性を示唆しているだけです。英語以外の言語で検索することが役立つと思われます。
そのため、名前のsoundexを指定すると、衝突はほとんどなく、実際のスペルは衝突のセットに含まれます。できれば、これは一般的な名前です。そのハンガリーのリストを見ると、Krisztián
スペルミスをする可能性がありますが、そうではありませんZoltán
(ハンガリーで2011年に最も多い赤ちゃんの名前#22!)。とは言っても、を間違えることはできませんMichael
。