ファイル(UTF-8)からいくつかの文字を削除しようとしています。私はtr
この目的のために使用しています:
tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat
ファイルにいくつかの外国の文字(「Латвийская」や「àé」など)が含まれています。tr
それらを理解していないようです:それらを非アルファとして扱い、削除します。
ロケール設定の一部を変更してみました:
LC_CTYPE=C LC_COLLATE=C tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat
LC_CTYPE=ru_RU.UTF-8 LC_COLLATE=C tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat
LC_CTYPE=ru_RU.UTF-8 LC_COLLATE=ru_RU.UTF-8 tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat
残念ながら、これらのどれも機能しませんでした。
tr
Unicode を理解させるにはどうすればよいですか?