タグ付けされた質問 「unicode」

Unicodeは、世界のほとんどの書記体系で表現されるテキストの一貫したエンコーディング、表現、および処理のためのコンピューティング業界標準です。

3
bashプロンプトの素晴らしい記号と文字
私は誰かの端末のスクリーンショットを見つけました: Bashプロンプトで使用できるすべてのキャラクターのリストがありますか、それとも誰かが星と右矢印のキャラクターを取得できますか?
81 bash  prompt  unicode 


2
VIMのデフォルトエンコーディングをUTF-8に設定するにはどうすればよいですか?
翻訳された文字列を提供するオープンソースプロジェクトに貢献したいと思います。要件の1つは、寄稿者がPOファイルのエンコーディングとしてUTF-8を使用する必要があることです。 LinuxでVIM 7.3を使用しています。.poファイルを正しい方法で編集して保存できるように、VIMのエンコードがUTF-8に設定されていることを確認するにはどうすればよいですか?

2
なぜprintfは「縮小」ウムラウトですか?
次の簡単なスクリプトを実行すると: #!/bin/bash printf "%-20s %s\n" "Früchte und Gemüse" "foo" printf "%-20s %s\n" "Milchprodukte" "bar" printf "%-20s %s\n" "12345678901234567890" "baz" 以下を印刷します: Früchte und Gemüse foo Milchprodukte bar 12345678901234567890 baz つまり、ウムラウト付きのテキスト(などü)は、ウムラウトごとに1文字ずつ「縮小」されます。 確かに、どこかに間違った設定がありますが、どの設定が可能なのかわかりません。 これは、ファイルのエンコードがUTF-8の場合に発生します。 エンコーディングをlatin-1に変更すると、配置は正しくなりますが、ウムラウトは正しくレンダリングされません。 Fr�chte und Gem�se foo Milchprodukte bar 12345678901234567890 baz
54 bash  unicode  printf 

6
無効なutf8のフィルタリング
不明または混合エンコードのテキストファイルがあります。UTF-8ではないバイトシーケンスを含む行を表示したい(テキストファイルを何らかのプログラムにパイプすることにより)。同様に、有効なUTF-8である行を除外したいと思います。言い換えれば、私は探しています。grep [notutf8] 理想的な解決策は、移植可能で、短く、他のエンコードに一般化できるものですが、UTF-8の定義を焼き付けるのが最善の方法だと感じたら先に進んでください。

2
Unicodeグリフに適したフォント
だから私はstackoverflowでこの答えを見ていましたが、私のフォントはutf-8ユニコードスペクトルの多くをカバーしていないことに気付きました(たくさんの正方形が得られるので)。誰もがその投稿のすべてをカバーするフォントを知っていますか?
38 fonts  unicode 

1
bash / shellスクリプトでlikeのようなUTF-8文字を使用する必要がありますか?
ここでの単純なコードは、次のコマンドで起動した場合、私のマシンで期待どおりに機能しbashます。 function ⏰(){ date } ⏰ これを使用している他の人に問題がありますか、それとも普遍的ですか? 私は今のところ他のソースコードでこのようなものを見たことがないので、疑問に思っています。 編集:無限の可能性があります。たとえば、機能の役割を絵文字の使用などですばやく区別するために使用できます。 ファイルを変更または削除できるものの場合は💣、進行中の作業の場合はinteractive、対話型メニューの場合は... そのすべての標準を作成する必要があると思いますが、興味深いアイデアのようです。 5文字までのランダムな行は、コードが何をしているのかを理解するのに役立ちます。(もちろん、それらの読み方を学ぶ必要があります。) さらなる編集:試してみる。今のところ、エディターですべての関数を折り畳むと(またはcat myscript.sh|grep function)このようになります。(私のユニコードはgeany、ここに比べて、または私の端末でずっと良く見えます。) function ⬚_1(){ function ⬚⬚_2(){ function ⬚⬚⬚_📃_D(){ function ⬚⬚⬚⬚_📃_X(){ function ⬚⬚⬚⬚⬚_📃_Y(){ function ⬚⬚⬚⬚⬚⬚_❓_P(){ function ⬚⬚⬚⬚_📃_Z(){ function ⬚⬚⬚⬚⬚_❓_U(){ function ⬚⬚⬚⬚⬚_❓_O(){ 奇妙なインデント⬚を使用して、関数の相互関係を示し、記号📃/❓を使用して、それぞれの役割を明確に区別しています。(もちろん、これらは私の実際の関数名ではありません。最後にランダムな文字を付けただけですが、それらがなくても関係を明確に見ることができます。)
36 bash  shell  unicode 

1
trに非ASCII(ユニコード)文字を認識させる方法は?
ファイル(UTF-8)からいくつかの文字を削除しようとしています。私はtrこの目的のために使用しています: tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat ファイルにいくつかの外国の文字(「Латвийская」や「àé」など)が含まれています。trそれらを理解していないようです:それらを非アルファとして扱い、削除します。 ロケール設定の一部を変更してみました: LC_CTYPE=C LC_COLLATE=C tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat LC_CTYPE=ru_RU.UTF-8 LC_COLLATE=C tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat LC_CTYPE=ru_RU.UTF-8 LC_COLLATE=ru_RU.UTF-8 tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat 残念ながら、これらのどれも機能しませんでした。 trUnicode を理解させるにはどうすればよいですか?


5
Arch Linuxサーバーを更新し、tmuxを取得しました:UTF-8ロケール(LC_CTYPE)が必要ですが、ANSI_X3.4-1968があります
最近Arch Linuxサーバーを更新しましたが、その過程でtmuxが更新されました。tmuxアップグレードの実行中に使用し、その後使用しましたが、すべて同じSSHセッション中に使用していました。 ただし、今、tmuxコマンドを発行しようとすると、このエラーが発生します。 tmux: need UTF-8 locale (LC_CTYPE) but have ANSI_X3.4-1968 locale -aサーバーからの出力は次のとおりです。 $ locale -a C POSIX 私のマシン(Ubuntu 15.10)で: $ locale -a C C.UTF-8 en_AG en_AG.utf8 en_AU.utf8 en_BW.utf8 en_CA.utf8 en_DK.utf8 en_GB.utf8 en_HK.utf8 en_IE.utf8 en_IN en_IN.utf8 en_NG en_NG.utf8 en_NZ.utf8 en_PH.utf8 en_SG.utf8 en_US.utf8 en_ZA.utf8 en_ZM en_ZM.utf8 en_ZW.utf8 POSIX 何が起こっているのですか、どうすれば修正できますか?

4
`grep`で16進コードを使用して文字を指定する方法は?
この質問は、UnixおよびLinux Stack Exchangeで回答できるため、Stack Overflowから移行されました。 8年前に移行され ました。 次のコマンドを使用して、16進コード0900(अの代わり)から097F(वの代わり)の文字セット範囲をgrepします。अとofの代わりに16進コードを使用するにはどうすればよいですか? bzcat archive.bz2 | grep -v '<[अ-व]*\s' | tr '[:punct:][:blank:][:digit:]' '\n' | uniq | grep -o '^[अ-व]*$' | sort -f | uniq -c | sort -nr | head -50000 | awk '{print "<w f=\""$1"\">"$2"</w>"}' > hindi.xml 次の出力が得られます。 <w f="399651">और</w> <w f="264423">एक</w> <w f="213707">पर</w> <w …

3
ソートがɛ= eと言うのはなぜですか?
ɛ(「ラテン語イプシロン」)は、特定のアフリカの言語で使用される文字で、通常は英語の「bed」で母音を表します。ユニコードでは、U + 025Bとしてエンコードされており、毎日とはまったく異なりeます。 ただし、sort次の場合: eb ed ɛa ɛc sort考慮しɛ、e同等と思われる: ɛa eb ɛc ed 何が起きてる?また、目的のために作成ɛしてe区別する方法はありsortますか?
25 sort  locale  unicode 


6
unixコマンドラインでUnicode正規化形式を変換する
Unicodeでは、いくつかの文字の組み合わせに複数の表現があります。 たとえば、文字äは次のように表すことができます 「ä」、つまりコードポイントU + 00E4(c3 a4UTF-8エンコーディングで2バイト)、または 「ä」、つまり2つのコードポイントU + 0061 U + 0308(61 cc 88UTF-8で3バイト)。 Unicode標準によれば、2つの表現は同等ですが、異なる「正規化形式」です。UAX#15:Unicode正規化形式を参照してください。 UNIXツールボックスには、sed、tr、iconv、Perlのようなあらゆる種類のテキスト変換ツールがあります。コマンドラインですばやく簡単にNF変換を行うにはどうすればよいですか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.