タグ付けされた質問 「character-encoding」

ASCII、UTF-8、EBCDICなど、文字や文字セットのさまざまな表現を扱う質問。改行や改行文字で改行をエンコードするオペレーティングシステム間でファイルを移動するときによく発生します。

3
LANGの調整が役に立たないときにWineアプリケーションでロシア語の文字を修正する方法は?
ロシアのUIを備えたアプリケーションでは、代わりにテキストの大部分に疑問符が表示されます(ただし、一部の要素は正常にレンダリングされます)。 システムロケールは英語(en_US、en_IE)です。Ubuntuant XUbuntu 12.04とWine 1.5を試しました。 私はアプリケーションを起動しようとしました LANG=ru_RU.utf8 wine myapp.exe しかし、それは役に立ちません。 また、ttf-mscorefonts-installerインストールされていることを確認しました。 Windowsを使用している場合、コントロールパネルでUnicode以外のアプリにロシア語のコードページを設定すると、問題が解決します。 何か案は?

2
Linuxでのファイルシステムの文字エンコーディングに関するいくつかの質問
Windows(GBKエンコーディング)とLinux(UTF-8エンコーディング)の間で多くのファイル交換が機能するため、次のような文字エンコーディングの問題が簡単に発生します。 Windowsシステムでは中国語の文字を含む名前のzip / tarファイル、Linuxシステムではunzip / untar。 GBK-encoding-namedファイルをディスクに書き込む移行済みのレガシーJava Webアプリケーション(JSPでGBKエンコーディングを使用してWindowsシステムで設計)を実行します。 ftpは、Windows FTPサーバーとLinuxクライアント間のGBKエンコード名ファイルを取得/配置します。 LinuxでLANG環境を切り替えます。 前述の一般的な問題は、ファイルの検索/命名です。グーグルで検索した後、Linux http://www.linux.com/archive/feed/39912でのUnicodeの使用に関する記事を受け取りました。 オペレーティングシステムと多くのユーティリティは、ファイル名のバイトが表す文字を認識しません。 したがって、異なるエンコーディングの2つの中文.txtファイルを作成することができます。 [root@fedora test]# ls ???? 中文 [root@fedora test]# ls | iconv -f GBK 中文 涓iconv: illegal input sequence at position 7 [root@fedora test]# ls 中文 && ls $'\xd6\xd0\xce\xc4'|iconv -f gbk 中文 中文 質問: LANG / LC_ALL環境に関係なく、ファイル名を保存するために、Linuxファイルシステムが固定文字エンコードを使用するように構成することは可能ですか(NTFSは内部でUTF-16を使用するように)? …

2
なぜwc -mとwc -cが異なるのですか?
Cプログラマーとして、wc -c(バイト数を数える)とwc -m(文字数を数える)が私の長いテキストファイルに対して非常に異なる結果を出力するのを見て驚いた。いつもsizeof(char)1バイトだと言われていました。 qdii@nomada ~/Documents $ wc -c sentences.csv 102990983 sentences.csv qdii@nomada ~/Documents $ wc -m sentences.csv 89023123 sentences.csv 説明はありますか?

2
posixはどの文字エンコーディングをサポートしていますか?
POSIXは、次のようなツールの動作を定義しgrep、awk、sed、などのテキストファイルに対してどの作品。テキストファイルなので、文字エンコードの問題があると思います。 質問: POSIXでサポートされている文字エンコーディングは何ですか?(または、POSIXコンピアントシステムで処理できるエンコーディングのテキストファイル?)

4
lprによるutf-8エンコーディングのサポート
介してプリンタにテキストファイルを送信しようとしたときlprからxterm、コンテンツは原形をとどめないほど破損している、の原因は、最終的にファイルのエンコーディングに追跡しました。代わりにiconv(例:)を使用してテキストを処理するとiconv -f utf-8 -t ascii//TRANSLIT、ファイルは正常に印刷されます。私が遭遇したもう1つの提案は、ドキュメント形式(例:)の設定ですlpr -o document-format=text/utf8が、これはエラーを返しますlpr: Unsupported document-format "text/utf8"。lprコマンドによるエイリアスを付けて、による処理を含めることもできますiconvが、CUPS/ lprシステムでのネイティブutf-8サポートのより一般的な方法はありますか? 編集:私のOSはDebian 8で、ウィンドウマネージャーはopenbox(デスクトップ環境なし)です。MacOS XとDebian7 / Gnome3システムから問題なくこのファイルを印刷できます。 現在のシステムでは、文字エンコードをUTF-8からASCIIに変更した後でも、改行文字はによって考慮されないlprため、行が連結され、用紙のマージンに達するまで印刷されます。iconvMacOS Xでの再コーディングと音訳の後でも、印刷は正常に機能します(したがって、改行の問題は現在のシステムに固有です)。

2
端末:特殊文字の表示
htop線やフレームなどの一部のプログラムでは、正しく表示されません。代わりに、-およびとして表示され/ます。 しかし、別のマシンでは、それらは適切な行として正しく表示されます。 これが端末の問題なのか、それとも何らかのパッケージが必要なのかはわかりません。 関連性がある場合:私のシステムはDebian Wheezy、私のインタープリターはbash私のターミナルエミュレーターはgnome-terminal

3
端末に対する$ LANGの影響
私は変数がgnome-terminal(およびその文字エンコーディング設定オプション)でどのように動作するかを学習しようとしてい$LANGます。私は主な文字セットとしてiso8859-1(latin1)を使用しており、すべてのファイル名はそのようにエンコードされています。 次のテストではls -l、ファイル名にスペイン語のアクセント付き文字を含むディレクトリを実行します。 ケース#1: ISO-8859-1用に構成されたgnome-terminal LANG 「en_US-iso8859-1」に設定 結果:すべてのファイルが正しく表示されます ケース#2: UTF-8用に構成されたgnome-terminal LANG 「en_US-iso8859-1」に設定 結果:スペイン語の文字すべてに文字化けが表示されます。端末の文字エンコーディングを変更したため、これは予想された ケース#3: ISO-8859-1用に構成されたgnome-terminal LANG 「en_US-UTF-8」に設定 結果:スペイン語の文字すべてに文字化けが表示されます。 この最後のケースで文字化けした文字が表示されるのはなぜですか?lsの出力は、ファイル名をそのままgnome-terminalに直接送信すべきではありませんか?そして、gnome-terminalはISO-8859-1用に構成されているので、私はそれらが正しく見えると期待していました。 一瞬、多分、おそらくbashは私の$LANG変数を考慮し、いくつかの変換を実行していると思いました。次に、端末をUTF-8に切り替えましたが、文字が正しく表示されません。私はlsの出力をxxdにパイプしましたが、驚いたことに、ISO-8859-1というファイルがエンコードされているのがわかります。 まとめ:リストにISO-8859-1文字が含まれていて、ターミナルエミュレーターが同じ文字エンコード用に構成されている場合:LANG他に設定されている場合、誰が変換を行っていますか? あなたが提供できる助けをありがとう。 クラコニア

1
Linuxでファイル名が「正常」に見えるのに、Windowsではリモートではないのはなぜですか?
同僚と作業しているときに、エンコードに関連していると思われる奇妙な問題を発見しました。私たちは、このような単純な十分なファイル名持っている一部の画像で作業しているcity.gifかをwine.gif、しかし、1つは期待通りなどの特殊文字を使用するときに物事が複雑になりé、ë、à。また、これらの文字を含むオランダ語のデータcafé(たとえばpub)も処理しています。(ファイルの出所を制御することはできません。)ここで問題が発生し始めます。以下のファイル名は一例です。この問題は、発音区別符号を持つ他の文字でも発生します。 café-2.png cafetaria.png café.png 最初と最後のアイテムにはアクセント付きのeが必要です(アクセントaigu、é)。これは、Linux(CentOS 6&7)の実行時にターミナルで表示される方法lsです。しかし、ここでWindowsが登場します。(Windows 10、64ビットを使用します。)WindowsでSSLを介してサーバーに接続してからを呼び出すlsと、上記のリストは次のようになります。 café-2.png cafetaria.png caf▒.png うまく行けばわかると思いますが、最初の行にはまだアクセント付きeが éありますが、3番目の行にはありません。代わりに、▒この文字が表示さmedium shadeれます-これはUnicode(10進数9618)です。これ自体は奇妙です。ただし、Filezillaを使用してSFTP経由で接続すると(Windowsでも)、次のようになります。 café-2.png cafetaria.png café.png これで状況éは一変しました。最初の1つはシーケンスに変更され、3番目の1つはすべて順調です。私が見つけたのは、これが正しければ、Latin-1 <-> UTF-8変換が間違っていたことが原因である可能性が高いです。しかし、それだけでは不十分です。 Linuxは期待どおりにすべてを表示し、Windowsはファイル名の表示方法(SSH(putty)、またはSFTP(filezilla))に応じて一貫性のない動作を示します。これらのファイル名を「正規化」する(つまり、編集する)方法はありますか。また、すべてのOSで同じであることを確認してください。または少なくとも一貫しており、そうであればどのように?UTF-8選択したエンコーディングです。 これは単に美的問題と同じかもしれませんが、そうではありません。LinuxサーバーからWindowsのSFTPを介してダウンロードしようとすると、上記の問題のあるファイルをダウンロードできません。FilezillaはのようなエラーをスローしますCan't download file café-2.png: café-2.png does not exist on the server。これは、Filezillaがディレクトリとファイル名を読み取り、それを何らかのエンコーディングで解釈し、GETリクエストをその解釈とともにサーバーに送信するように見えますが、その解釈はLinuxファイル名とは異なるため、ファイルは見つかりません。 結局、なぜこれが発生するのかにも興味がありますが、利用可能な解決策があればいいのですが。イメージファイルが異なるオペレーティングシステムで作成された可能性があるために発生しますか?Linuxサーバーがそれらを間違って解釈するために発生しますか、それともWindowsが混乱していますか?うまくいけば、システム管理者に連絡してサーバー構成のスイッチをオンにするように依頼できるソリューションがありますが、それはそれほど簡単ではないようです。

1
一部のアプリは«Compose»キーの一部の文字を受け入れません
問題は、コンポーズキーが正常に機能することですが、一部のアプリケーションはそこからいくつかの文字を受け入れません。たとえば∞、Emacs(Compose+ 8+ 8)で文字を入力できますが、FireFox、Konsole、Kateでは機能しません。しかし、多くの他の文字、例えば€型付きそこ(FireFoxの、konsoleのとケイト中)と作曲の仕事だけで罰金。また、問題のシンボルを(2つのクリップボードのいずれかから)単純なコピーと貼り付けで挿入することもできます。 それでは、何が原因で、どのように修正するのでしょうか? 申し訳ありませんが、問題を調査する方法がわかりません。一部のアプリではComposeキーがまったく機能しない人を見つけましたが、私の場合は、部分的には機能します。 セットアップ:両方の/etc/default/keyboardKDEキーボード設定で正しいスーパーキーにバインドされた構成キー。

4
奇妙なキャラクターを特定するにはどうすればよいですか?
私が作業しているファイルで見つけた奇妙な文字を識別しようとしています: $ cat file � $ od file 0000000 005353 0000002 $ od -c file 0000000 353 \n 0000002 $ od -x file 0000000 0aeb 0000002 ファイルはISO-8859エンコーディングを使用しており、UTF-8に変換できません。 $ iconv -f ISO-8859 -t UTF-8 file iconv: conversion from `ISO-8859' is not supported Try `iconv --help' or `iconv --usage' for more information. …

2
ファイル名の特殊文字(\#033OA)
rsync中に非常に頑固なエラーが発生し、少し問題が発生しました。ファイル名に特殊文字が含まれているファイルが原因です。他にもありますが、ファイル名のエンコードを変換することで解決できます。しかし、この1つのファイルも見つかりません。 だからここにrsyncが言うことです: ../.\#033OA.tex.pyD0MB" failed: No such file or directory (2) 最初に気づくのは、文字コードを16進数または8進数にすることはできないため、グーグル検索してこれを見つけただけです。したがって、CURSOR UP文字であるかどうかは関係ありません。私はもう試した ls -la *`printf '\033OA'`* 無駄に。私はまた、そのディレクトリのlsの出力をod無駄にパイプしてみました。 他に何ができますか?それともとにかくどんなキャラクターを探していますか? ありがとう

2
libreoffice --convert-to csvでエンコーディングを指定する
Excelファイルは、次を使用してCSVに変換できます。 $ libreoffice --convert-to csv --headless --outdir dir file.xlsx すべてがうまく機能しているようです。ただし、エンコーディングは不安定なものに設定されています。LibreOffice Calcから「名前を付けて保存」を手動で行うと、UTF-8 mdash(—)の代わりに、\ 227( )が得られます。CSVでファイルを使用すると、「非ISO拡張ASCIIテキスト、非常に長い行」が表示されます。したがって、2つの質問: ここで一体何が起こっているのですか? libreofficeにUTF-8に変換するように指示するにはどうすればよいですか? 私が変換しようとしている特定のファイルはここにあります。

3
BOM(FF FE)で始まるファイルを処理する
FF FEBOM を含む.csvファイルを受け取りました。 $ head -n1 dotan.csv | hd 00000000 ff fe 41 00 64 00 20 00 67 00 72 00 6f 00 75 00 |..A.d. .g.r.o.u.| を使用awkして解析すると、nullバイトが大量に取得されますが、これはバイトオーダーが原因であると考えられます。このファイルのバイトオーダーを(CLIを使用して)スワップして、通常のツールがそれで動作するようにするにはどうすればよいですか? このファイルはASCII文字(BOMを除く)だけであるとgrep思いますが、バイナリファイルであるとは考えられないため、確認できません。 $ grep -P '^[\x00-\x7f]' dotan.csv Binary file dotan.csv matches VIMで同じ文字列を検索すると、一致するすべての文字が表示されます。 iconvASCIIへの変換に使用しても\ x00値は削除されません。UTF-8ではなくnullバイトのように見えるため、実際には問題がさらに悪化します。 $ iconv -f UTF-8 -t ASCII dotan.csv > …


2
ターミナルで奇妙な文字が表示されないようにするには、どうすればロケール/エンコーディングを変更できますか?
私はtreeubuntuボックスにインストールしました。Puttyから接続して起動すると、次のtreeようになります。 $ tree âââ html.vim -> xml.vim âââ js.vim -> xml.vim âââ xml.vim これの代わりに : $ tree --charset=ANSII |-- html.vim -> xml.vim |-- js.vim -> xml.vim `-- xml.vim たとえば、npm(からのパッケージマネージャーnodejs)からパッケージを一覧表示するときにも、この問題が発生します $ npm list /home/monkey/scripts/chatter ââ⏠express@3.0.6 â âââ buffer-crc32@0.1.1 â âââ commander@0.6.1 â ââ⏠connect@2.7.2 â â âââ bytes@0.1.0 どうすれば変更できますか(PuttyまたはLinuxボックスから)?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.