私はたくさんのアドレス文字列を持っています:
1600 Pennsylvania Ave, Washington, DC 20500 USA
それらをコンポーネントに解析したい:
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
しかし、もちろんデータは汚れています。さまざまな方法で書かれたさまざまな言語の多くの国から来たもので、つづりの間違い、欠品、余分なジャンクなどが含まれています。
現時点では、ファジーガゼッターマッチングと組み合わせたルールを使用するのがアプローチですが、機械学習の手法を探求したいと考えています。教師あり学習用のトレーニングデータにラベルを付けました。問題は、これはどのような機械学習の問題ですか?クラスタリング、分類、回帰のようには見えません。
私が思いつく最も近い方法は、各トークンを分類することですが、実際には、それらをすべて同時に分類し、「最大で1つの国が存在する必要があります」などの制約を満たします。本当に文字列をトークン化する方法はたくさんあり、それぞれを試して最高のものを選択したいのですが...統計解析と呼ばれるものがあることは知っていますが、それについては何も知りません。
それで、アドレスを解析するためにどんな機械学習技術を探求できますか?