バリアント文字セットでエンコードされた多くのプレーンテキストファイルがあります。
それらをすべてUTF-8に変換したいのですが、iconvを実行する前に、元のエンコーディングを知る必要があります。ほとんどのブラウザにはAuto Detect
エンコーディングのオプションがありますが、あまりにも多くあるため、これらのテキストファイルを1つずつ確認することはできません。
元のエンコーディングのみがわかっているので、テキストをで変換できiconv -f DETECTED_CHARSET -t utf-8
ます。
プレーンテキストファイルのエンコードを検出するユーティリティはありますか?100%完全である必要はありません。100万個のファイルが1,000,000個のファイルに誤って変換されていてもかまいません。
python-chardet
Ubuntuユニバースリポジトリのように既にパッケージ化されています。