バリアント文字セットでエンコードされた多くのプレーンテキストファイルがあります。
それらをすべてUTF-8に変換したいのですが、iconvを実行する前に、元のエンコーディングを知る必要があります。ほとんどのブラウザにはAuto Detectエンコーディングのオプションがありますが、あまりにも多くあるため、これらのテキストファイルを1つずつ確認することはできません。
元のエンコーディングのみがわかっているので、テキストをで変換できiconv -f DETECTED_CHARSET -t utf-8ます。
プレーンテキストファイルのエンコードを検出するユーティリティはありますか?100%完全である必要はありません。100万個のファイルが1,000,000個のファイルに誤って変換されていてもかまいません。
python-chardetUbuntuユニバースリポジトリのように既にパッケージ化されています。