タグ付けされた質問 「natural-language」

5
UTF-8ファイルをASCIIに変換する(ベストエフォート)
複数の言語のテキストを含むUTF-8のファイルがあります。それの多くは人々の名前です。それをASCIIに変換する必要があり、結果を可能な限りまともなものにする必要があります。 より広いエンコードからより狭いエンコードへの変換をアプローチする方法は多数あります。最も単純な変換は、すべての非ASCII文字を「_」などのプレースホルダーに置き換えることです。ファイルが記述されている言語がわかっている場合は、ローマ字表記などの追加の可能性があります。 Unixで利用可能なUnixツールまたはプログラミング言語ライブラリは、UTF-8からASCIIへの適切な(ベストエフォート)変換を可能にしますか? テキストのほとんどは、ヨーロッパのラテン系ベースの言語です。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.