複数の言語のテキストを含むUTF-8のファイルがあります。それの多くは人々の名前です。それをASCIIに変換する必要があり、結果を可能な限りまともなものにする必要があります。
より広いエンコードからより狭いエンコードへの変換をアプローチする方法は多数あります。最も単純な変換は、すべての非ASCII文字を「_」などのプレースホルダーに置き換えることです。ファイルが記述されている言語がわかっている場合は、ローマ字表記などの追加の可能性があります。
Unixで利用可能なUnixツールまたはプログラミング言語ライブラリは、UTF-8からASCIIへの適切な(ベストエフォート)変換を可能にしますか?
テキストのほとんどは、ヨーロッパのラテン系ベースの言語です。