タグ付けされた質問 「unicode」

Unicodeは、世界のほとんどの書記体系で表現されるテキストの一貫したエンコーディング、表現、および処理のためのコンピューティング業界標準です。

6
GnomeターミナルプロファイルはデフォルトでUTF-8を使用できますか?
私はUbuntu(私が思うに)システムにいます。私していない私は、ロケールを変更することはできませんので、ルートを持っています。デフォルトの端末プロファイルでデフォルトでUTF-8を使用するようにします。これを行う方法は、.gconf/apps/gnome-terminal/どこかのディレクトリ、環境変数などのいずれかである必要があります。しかし、私はそれを見つけることができないようです。 詳細を編集します。 ターミナルには、次のものがあります。 grid-unv55$ locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8" LC_NUMERIC="en_US.UTF-8" LC_TIME="en_US.UTF-8" LC_COLLATE="en_US.UTF-8" LC_MONETARY="en_US.UTF-8" LC_MESSAGES="en_US.UTF-8" LC_PAPER="en_US.UTF-8" LC_NAME="en_US.UTF-8" LC_ADDRESS="en_US.UTF-8" LC_TELEPHONE="en_US.UTF-8" LC_MEASUREMENT="en_US.UTF-8" LC_IDENTIFICATION="en_US.UTF-8" LC_ALL= grid-unv55$ gnome-terminal その新しいターミナルでさらにUTFドキュメントを試みると、次のようになります。 \ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd \noise:bgspeech \ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd 画面にドットとして表示されます。(ウッフはカットアンドペーストでした。 "\ noise:bgspeech"をそこに残したので、アスキーが正しくカットアンドペーストされていることがわかります)

3
Unicode文字を書く普遍的な方法はありますか?
vim、Chrome(今のように!)、またはLibreOfficeなどのさまざまなプログラムで、emダッシュ(—)などの特殊なUnicode文字を書きたいことがあります。 LibreOfficeでは、[挿入]メニューの下にある専用のダイアログボックスでこれを実現できます。他のプログラムには組み込みの方法がないようです。これらの場合の私の解決策は、Wikipediaでキャラクターを検索し、コピーして貼り付けることです。 Linuxでテキスト入力を受け付けるプログラムで、すでに印刷されている場所からコピーアンドペーストすることなく、Unicode文字を書く普遍的な方法はありますか?


6
ヘブライ語の名前を持つファイルのZIPアーカイブを正しく解凍するにはどうすればよいですか?
誰かがヘブライ語の名前のファイルを含むZIPファイルを私に送ってくれました(そしてWindowsで作成されましたが、どのツールで作成されたかはわかりません)。Debian StretchでLXDEを使用しています。Gnomeアーカイブマネージャーはファイルを解凍しますが、ヘブライ語の文字は文字化けします。私が考える 0x008E 0x0087 0x008E 0x0085:私は名前が4つの文字との.doc sufficを持つファイルを持っ例えばI、Unicode文字に拡張UTF-8オクテットを得ている、との文字があります。コマンドラインのunzipユーティリティを使用するとさらに悪化します。完全に解凍することを拒否し、「無効または不完全なマルチバイト文字またはワイド文字」について文句を言います。 だから、私の質問は: ファイルを正しい名前で解凍する別の解凍ユーティリティはありますか? ファイルの圧縮方法に何か問題がありますか、それともZIP実装の非互換性ですか?または、Linux ZIPユーティリティの機能/バグでさえありますか? 文字化けしたファイルを使用して解凍した後、正しいファイル名を取得するにはどうすればよいですか?

2
一部のUnicode文字が端末に印刷されないのはなぜですか?
Adobe Source Code Proフォントを使用した単純な端末でArch Linuxを実行しています。ロケールが正しく設定されていLANG=en_US.UTF-8ます。 トランプを表すUnicode文字を端末に印刷したい。参考としてウィキペディアを使用しています。 カードスーツのUnicode文字は正常に機能します。たとえば、発行 $ printf "\u2660" 画面に黒いハートを印刷します。 しかし、特定のトランプで問題があります。発行中 $ printf "\u1F0A1" Ἂ1スペードaceのエースの代わりにシンボルを表示します。何が悪いの? この問題は、いくつかの端末(urxvt、xterm、シロアリ)および私が試したすべてのフォント(DejaVu、Inconsolata)で持続します。
16 bash  fonts  unicode  printf 


3
U + xxxxxコードで指定された絵文字をutf-8に変換する方法は?
絵文字はU + xxxxxの形式を使用して指定されているようです 。各xは16進数です。 たとえば、U + 1F615は「混乱した顔」の公式Unicodeコンソーシアムコードです😕 よく混乱するので、このシンボルには強い親和性があります。 U + 1F615 Iは、Unicode文字のための唯一のエンコーディングが可能と思ったので表現は私に混乱して5進数字は、5x4 = 20ビットを必要とするのに対し、8、16、24または32ビットを必要としました。 このシンボルは、bashのまったく異なる16進文字列で表されているように見えることがわかりました。 $echo -n 😕 | hexdump 0000000 f0 9f 98 95 0000004 $echo -e "\xf0\x9f\x98\x95" 😕 $PS1=$'\xf0\x9f\x98\x95 >' 😕 > U + 1F615が\ x00 \ x01 \ xF6 \ x15のようなものに変換することを期待していました。 これら2つのエンコーディングの関係が見当たらないのですか? 公式のUnicode Consortiumリストでシンボルを検索するとき、この退屈な方法で手動で変換することなく、そのコードを直接使用できるようにしたいと思います。すなわち いくつかのWebページでシンボルを見つける Webブラウザーのクリップボードにコピーする bashに貼り付けて16進ダンプをエコーし​​、REALコードを検出します。 …

2
utfを認識しているcoreutils?
cut今日使用したとき、UTF-8文字を文字として扱うのではなく、3バイトの長さであるため3文字であることがわかりました。 これは多くのツールで一般的に当てはまるようです。 coreutilsUTF-8対応のバージョンはありますか? 私のlocale出力: LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8" LC_NUMERIC="en_US.UTF-8" LC_TIME="en_US.UTF-8" LC_COLLATE="en_US.UTF-8" LC_MONETARY="en_US.UTF-8" LC_MESSAGES="en_US.UTF-8" LC_PAPER="en_US.UTF-8" LC_NAME="en_US.UTF-8" LC_ADDRESS="en_US.UTF-8" LC_TELEPHONE="en_US.UTF-8" LC_MEASUREMENT="en_US.UTF-8" LC_IDENTIFICATION="en_US.UTF-8" LC_ALL= cutうまくいかないとき echo 哈哈 | cut -c 2- ��哈 正しい出力は 哈 cut -cマルチバイト文字を使用した場合。
16 unicode  coreutils  cut 

4
コードポイントのレンダリングに最適なフォントを見つける
Unicodeコードポイントをレンダリングするための適切なフォントを見つける方法 gnome-terminal«🉃⼼😻🕲🝤»のような文字は、私の端末フォントやcodepoint-in-squareフォールバック(????)ではなく、Symbolaなどのフォントでレンダリングできることがわかります。どうやって ?
16 fonts  unicode 

3
UTF-8で `cut -c`(` --characters`)を使用できませんか?
このコマンドにcutは、オプションの-cあるバイトではなく、文字を処理するオプションがあります-b。しかし、en_US.UTF-8ロケールでは機能しないようです: 2番目のバイトは、2番目のASCII文字(UTF-8とまったく同じようにエンコードされます)を提供します。 $ printf 'ABC' | cut -b 2 B ただし、UTF-8ロケールでは3つのギリシャ語の非ASCII文字のうち2番目の文字は表示されません。 $ printf 'αβγ' | cut -b 2 � 大丈夫-2番目のバイトです。 したがって、代わりに2番目の文字を見てみましょう。 $ printf 'αβγ' | cut -c 2 � それは壊れているように見えます。 いくつかの実験で、範囲3-4が2番目の文字を示していることがわかりました。 $ printf 'αβγ' | cut -c 3-4 β しかし、これはバイト3〜4と同じです。 $ printf 'αβγ' | cut -b 3-4 β したがって、これはUTF-8の-c場合を超えません-b。 ロケールのセットアップはUTF-8には適切ではないと思いますが、比較すると、wc期待どおりに機能します。 …

5
文字列の表示幅を取得します
シェルスクリプトから文字列の表示幅(少なくとも(現在のロケールの文字を正しい幅で表示する端末上で)表示幅)を取得するポータブルな方法に最も近いもの。 私は主に非制御文字の幅に興味がありますが、バックスペース、キャリッジリターン、水平タブのような制御文字を考慮したソリューションも歓迎します。 言い換えると、POSIX関数のシェル APIを探していwcswidth()ます。 そのコマンドは以下を返します: $ that-command 'unix' # 4 fullwidth characters 8 $ that-command 'Stéphane' # 9 characters, one of which zero-width 8 $ that-command 'もで 諤奯ゞ' # 5 double-width Japanese characters and a space 11 一つは使用することができますksh93のをprintf '%<n>Ls'考慮にパディングのための文字幅とる<n>列、またはcol(例えばして、コマンドをprintf '++%s\b\b--\n' <character> | col -b試してみて、それを導き出すために)、そこにテキスト:: CHARWIDTHだperl少なくともモジュールが、そこより直接的またはポータブルなアプローチです。 それは多かれ少なかれ、テキストを表示する前にその情報を知る必要がある画面の右側にテキストを表示することに関する他の質問のフォローアップです。

2
UTF 8ファイル名?
UNIXベースのオペレーティングシステムでは、utf6ファイル名は許可されますか?その場合、ファイルをディスクに書き込むために特別なことをする必要があります。 私がやりたいことを説明させてください。ftp経由でリモートシステムにファイルを転送するアプリケーションを作成していますが、ファイル名は、utf8にある可能性のあるメタデータのセットを介して動的に設定されます。unix / linuxのディスクにファイルを書き込むために必要なことがあるかどうか疑問に思っています。 また、フォローアップとして、utf 8をサポートしていないシステムにutf 8ファイル名をアップロードした場合に何が起こるか誰もが知っていますか?

2
grep:日本語の漢字を含むすべての行を検索します
巨大なUTF-8テキストファイルで、日本語の漢字を含むすべての行を表示したいと思います。 これはどのようなgrep(または他の)表現ですか? 私は間違っていないよ場合は、漢字は間の文字である\u4e00と\u4dbf。 私はkanasを表示する必要はありませんが、それらを表示することも大きな問題ではありません。
14 grep  unicode 

1
GnomeデスクトップからKDEのKonsole端末にUnicode文字を入力するにはどうすればよいですか?
Ubuntuを使用します。「gnome-terminal」では、最初にCtrl-Shift-uを入力し、続いてコードポイントの16進値を入力することにより、Unicodeコードポイントを入力できます。C-S-u 2468producesを生成する konsole、私の好みの端末には、このCSu(gnome)機能がありません。 Konsoleでこれを行うための同等のKDE方法はありますか?

1
GNU ScreenはUnicode文字を正しくエコーしません
私の端末でこれを行うとき: echo -e "\xF0\x9f\x8d\xba" 私のターミナルでクールなビールジョッキを取得します:🍺 ただし、画面を起動して同じことを試してみると、素敵なビールジョッキを入手するにはどうすればよいですか? これは私の.screenrcです: nethack on startup_message off defscrollback 3000 hardstatus on hardstatus alwayslastline hardstatus string "%{.bW}%-w%{.rW}%n %t%{-}%+w %=%{..G} %H %{..Y} %m/%d %c" termcapinfo xterm 'bc@:bs@' ignorecase on maptimeout 0 vbell off defutf8 on defencoding utf8 また、-Uオプションを使用して画面を実行しても役に立ちません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.