Unix & Linux character-encoding

3

すべてのパーセントエンコードされたUTF-8サブストリングをプレーンUTF-8テキストに置き換える方法は？

URLに多くの％エンコードされたUTF-8テキストを含むhtmlファイルを持っています。たとえば、「％D1％80％D0％B5％D1％81％D1％83％D1％80％D1％81％D1％8B」は「ресурсы」（ロシア語では「リソース」）を表します。タスクは、そのようなすべての部分文字列を読み取り可能なUTF-8テキストに置き換えることです。タスクを簡略化するため%に、ファイルに他の符号の使用がないと見なすことができます。文字の数字は大文字と小文字の両方にすることができます。私はこれがでエレガントに行うことができます疑いがあるsed、perl、awkまたは何かが、方法がわかりません。このWebアプリケーションは、そこに貼り付けたテキストでトリックを行うようです。

9 text-processing character-encoding text unicode

2

エンコーディングの問題により、同じファイル、異なるファイル名？

ソースからバックアップを差分して、データが正しいことを手動で確認しようとしていました。åäöなどの一部の文字は元のデータに正しく表示されませんが、（Sambaを介して）クライアントが正しく解釈するため、心配する必要はありません。バックアップから復元されたデータは、文字を正しく示しているため、diffはそれらを同じファイル（差分ではなく、完全に異なるファイル）とは見なしません。 md5の合計、ファイルは同じだが名前が異なる。 # md5sum /original/iStock_000003637083Large-barn* e37c34968dd145a0e25692e1cb7fbdb1 /original/iStock_000003637083Large-barn p? strand.jpg # md5sum /frombackup/iStock_000003637083Large-barn* e37c34968dd145a0e25692e1cb7fbdb1 /frombackup/iStock_000003637083Large-barn på strand.jpg マウントオプションとファイルシステム /dev/sdb1 on /original type ext4 (rw,noatime,errors=remount-ro) /dev/sdc1 on /frombackup type ext4 (rw) ロケール LANG=sv_SE.UTF-8 LANGUAGE= LC_CTYPE="sv_SE.UTF-8" LC_NUMERIC="sv_SE.UTF-8" LC_TIME="sv_SE.UTF-8" LC_COLLATE="sv_SE.UTF-8" LC_MONETARY="sv_SE.UTF-8" LC_MESSAGES="sv_SE.UTF-8" LC_PAPER="sv_SE.UTF-8" LC_NAME="sv_SE.UTF-8" LC_ADDRESS="sv_SE.UTF-8" LC_TELEPHONE="sv_SE.UTF-8" LC_MEASUREMENT="sv_SE.UTF-8" LC_IDENTIFICATION="sv_SE.UTF-8" LC_ALL= od -c # ls "/original/iStock_000003637083Large-barn …

9 linux diff character-encoding

3

リモートのRed-Hatマシンで漢字を正しく表示する方法

Ubuntu14.04を使用してリモートホストに接続しています。そのバージョンは次のとおりです。 Linuxバージョン2.6.32-431.11.5.el6.yyyzzz.x86_64（gccバージョン4.4.7 20120313（Red Hat 4.4.7-4）（GCC））＃1 SMP Thu Jul 3 09:42:34 CST 2014 そのマシンのアップロードファイルで漢字が正しく表示されません。ファイルを開き、Ubuntuでランダムに漢字を入力しますibus input method。そしてそれは示しています： ~R~V�~K~B~I~W个~I~N~T�饭~T~E オンラインで検索し、次の2つの方法を試しました。 1：ロケールを調べる It shows: LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8" LC_NUMERIC=en_US.UTF-8 LC_TIME=en_US.UTF-8 LC_COLLATE="en_US.UTF-8" LC_MONETARY=en_US.UTF-8 LC_MESSAGES="en_US.UTF-8" LC_PAPER=en_US.UTF-8 LC_NAME=en_US.UTF-8 LC_ADDRESS=en_US.UTF-8 LC_TELEPHONE=en_US.UTF-8 LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=en_US.UTF-8 LC_ALL= 問題ないようです。 2：中国語サポートパッケージをインストールするやった： yum install "@Chinese Support" そのマシンに178Mのファイルをインストールしました。その後、別のファイルを開き、ibusで中国語を入力してみます。しかし、問題は残っています、それをどのように解決しますか？ update1 後でさらに調査を行いました。一部の文字は（ピンイン入力方式、ibusを介して）正しく入力できることがわかりました。お気に入り：起度顿客 …

8 character-encoding unicode input-method

2

端末：英語以外の文字

以前は、コンソール/ターミナルであらゆる種類の文字（例：éöñßو好）をコピー＆ペースト（または、それぞれのキーボードレイアウトをロードする場合はタイプ）できるようになりました。今、私は新しいコンピュータを購入しましたが、英語/ ASCII文字のみで動作しなくなりました（ただし、Firefoxなどの他のプログラムでは動作します）。ディストリビューション：Ubuntu。試した端末：gnome-terminal、xterm、konsole。 / etc / environmentのLANGをen_US.UTF-8に設定してみましたが、再起動後echo $LANGもが表示されCます。私もgnome-terminal -menu でに設定Character encodingしてみUnicode(UTF-8)ましたが、Terminal効果はありませんでした。質問：英語以外の文字を処理できる端末を入手するにはどうすればよいですか？

8 ubuntu character-encoding gnome-terminal locale

1

bash（arch linux）で文字エンコードを修正する方法

bashでのドイツ語のウムラウトのエンコードに問題があります。ほとんど問題なく動作していますが、無効なコマンドを入力すると、bashによって生成されるエラーメッセージには、実際の文字ではなく、奇妙なエスケープシーケンスが含まれます。これは問題を示すログです： [root@myhost ~]# mkdir ä [root@myhost ~]# ä -bash: $'\303\244': Kommando nicht gefunden. [root@myhost ~]# ü -bash: $'\303\274': Kommando nicht gefunden. [root@myhost ~]# ls ä äöü Projects tbb [root@myhost ~]# cat äöü äüö [root@myhost ~]# rm ä rm: Entfernen von „ä“ nicht möglich: Ist ein Verzeichnis [root@myhost ~]# rmdir …

8 bash arch-linux character-encoding

タグ付けされた質問 「character-encoding」

タグ付けされた質問「character-encoding」