タグ付けされた質問 「unicode」

Unicodeは、すべての書記体系、技術記号、句読点を組み込んだテキストに必要なすべての文字をサポートすることを目的とした、テキストのエンコード、表現、処理の標準です。

6
Java FileReaderエンコーディングの問題
java.io.FileReaderを使用していくつかのテキストファイルを読み取って文字列に変換しようとしましたが、結果が正しくエンコードされておらず、まったく読み取れません。 これが私の環境です: Windows 2003、OSエンコーディング:CP1252 Java 5.0 私のファイルはUTF-8エンコードまたはCP1252エンコードされており、一部のファイル(UTF-8エンコードファイル)には中国語(非ラテン)文字が含まれている場合があります。 次のコードを使用して作業を行います。 private static String readFileAsString(String filePath) throws java.io.IOException{ StringBuffer fileData = new StringBuffer(1000); FileReader reader = new FileReader(filePath); //System.out.println(reader.getEncoding()); BufferedReader reader = new BufferedReader(reader); char[] buf = new char[1024]; int numRead=0; while((numRead=reader.read(buf)) != -1){ String readData = String.valueOf(buf, 0, numRead); fileData.append(readData); buf = …
130 java  file  unicode  encoding 

12
記号、アクセント文字を英語のアルファベットに変換する
問題は、ご存じのように、Unicodeチャートには何千もの文字があり、類似の文字をすべて英語のアルファベットの文字に変換したいということです。 たとえば、ここにいくつかの変換があります: ҥ->H Ѷ->V Ȳ->Y Ǭ->O Ƈ->C tђє Ŧค๓เℓy --> the Family ... そして、私は手紙A / aの20以上のバージョンがあることを見ました。それらを分類する方法がわかりません。彼らは干し草の山の針のように見えます。 ユニコード文字の完全なリストはhttp://www.ssec.wisc.edu/~tomw/java/unicode.html またはhttp://unicode.org/charts/charindex.htmlにあります。下にスクロールしてみて、文字のバリエーションを確認してください。 これらすべてをJavaでどのように変換できますか?私を助けてください :(

7
正規化されたUTF-8とは何ですか?
ICUプロジェクト(今も持っているPHPライブラリは)検索するときに、それが簡単に値を比較するために行うために、ヘルプノーマライズUTF-8文字列に必要なクラスが含まれています。 ただし、これがアプリケーションにとって何を意味するのかを理解しようとしています。たとえば、「互換性の同等性」ではなく「正規の同等性」が必要な場合、またはその逆はどのような場合ですか。

8
HTML文字コード8203とは何ですか?
文字コード(HTML)とは​?私はjQueryスクリプトの1つでそれを見つけ、それが何であるか疑問に思いました。 ありがとう。 編集: ここにスクリプトがありました(最後に追加され、Firebugで見つかりました) <script src="http://code.jquery.com/jquery-latest.js" type="text/javascript"></script> <script type="text/javascript"> var $jnyh = jQuery.noConflict(); $jnyh(function() { $jnyh("#title-nyh").click(function() { $jnyh(".show-hide-nyh").slideDown("slow"); }, function() { if(!$jnyh(this).data('pinned')) $jnyh(".show-hide-nyh").slideUp("slow"); }); $jnyh("#title-nyh").click(function() { $jnyh(this).parent().toggleClass("title-btm-brdr"); $jnyh(this).toggleClass("chev-up-result"); var pin = $jnyh(this).data('pinned'); $jnyh(this).data('pinned', !pin); if(pin) $jnyh(".show-hide-nyh").slideUp("slow"); }); });​​ </script>


3
Java正規表現の\ wおよび\ bに相当するUnicodeですか?
多くの最近の正規表現の実装では、\w文字クラスの省略形を「任意の文字、数字、または接続句読点」(通常はアンダースコア)として解釈します。そのように、のような正規表現\w+の言葉が好きな試合hello、élève、GOÄ_432またはgefräßig。 残念ながら、Javaにはありません。Javaでは、\wに制限されてい[A-Za-z0-9_]ます。これにより、上記のような単語のマッチングが困難になります。 また、 \b単語セパレーターが一致してはならない場所で一致しているように見えます。 .NETのような、Unicode対応の、\wまたは\bJava の正しい同等物は何ですか?Unicode対応にするために「書き換え」が必要な他のショートカットはどれですか。

7
Python-'ascii'コーデックはバイトをデコードできません
私は本当に混乱しています。エンコードしようとしましたが、エラーが表示されましたcan't decode...。 >>> "你好".encode("utf8") Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128) 文字列に "u"プレフィックスを付けてエラーを回避する方法を知っています。エンコードが呼び出されたときにエラーが「デコードできない」のはなぜですか。Pythonは内部で何をしていますか?

10
JavaScriptからHTMLでUnicode文字が絵文字としてレンダリングされないようにするにはどうすればよいですか?
FileFormat.Infoの検索から、特殊文字のUnicodeを見つけています。 一部の文字は、⚠(警告記号、\u26A0または⚠)などの古典的な白黒のグリフとしてレンダリングされます。CSSスタイル(色など)を適用できるので、これらの方が望ましいです。 その他は、⌛(砂時計、\u231Bまたは⌛)などの新しい漫画の絵文字としてレンダリングしています。私はそれらを完全にスタイルすることができないので、これらは好ましくありません。 Mac ChromeでもMac SafariでもないMac Firefoxで砂時計のグリフを見ることができるので、ブラウザーがこの変更を行っているようです。 ブラウザーに古い(フラットモノトーン)バージョンを強制的に表示させる方法はありますか? 更新:(以下のコメントから)text-vs-emojiを適用するために使用できるテキストプレゼンテーションセレクターがFE0Eあるようです。セレクターは⌛︎、HTML hexや\u231B\uFE0EJS などのように、文字のコード上にスペースのないサフィックスとして連結されます。ただし、すべてのブラウザー(ChromeやEdgeなど)でこれが受け入れられるわけではありません。
119 javascript  html  css  unicode  emoji 

4
CSS:要素のコンテンツの前に空白を追加する方法は?
次のコードはどれも機能しません。 p:before { content: " "; } p:before { content: " "; } 要素のコンテンツの前に空白を追加するにはどうすればよいですか? 注:セマンティックに使用するためにborder-leftおよびmargin-leftに色を付け、スペースを無色のマージンとして使用する必要があります。:)

13
その番号からUnicode文字を作成する
JavaでUnicode文字を表示したい。これを行うと、うまく動作します。 String symbol = "\u2202"; 記号は「∂」と等しい。それが私が欲しいものです。 問題は、私がUnicode番号を知っていて、そこからUnicodeシンボルを作成する必要があることです。私は(私に)明白なことを試しました: int c = 2202; String symbol = "\\u" + c; ただし、この場合、シンボルは "\ u2202"と等しくなります。それは私が望むものではありません。 Unicode番号がわかっている場合にシンボルを構築するにはどうすればよいですか(ただし、実行時のみ---最初の例のようにハードコードすることはできません)?

6
PerlからUTF-8を出力するにはどうすればよいですか?
「utf8」プラグマを使用してPerlスクリプトを記述しようとしていますが、予期しない結果が発生しています。Mac OS X 10.5(Leopard)を使用しており、TextMateで編集しています。エディターとオペレーティングシステムの両方の設定はすべて、デフォルトでutf-8形式でファイルを書き込むようになっています。 しかし、以下をテキストファイルに入力し、「。pl」として保存して実行すると、ASCII以外の文字の代わりにわかりやすい「疑問符の付いたひし形」が表示されます。 #!/usr/bin/env perl -w use strict; use utf8; my $str = 'Çirçös'; print( "$str\n" ); 私が間違っていることは何か考えていますか?出力に「Çirçös」が表示されることを期待していますが、代わりに「 ir s」が表示されます。
110 perl  unicode  utf-8 

3
UTF-8の「可変幅エンコーディング」はどのように機能しますか?
ユニコード標準には、それらをすべて格納するために4バイトが必要となる十分なコードポイントが含まれています。これは、UTF-32エンコーディングが行うことです。しかし、UTF-8エンコーディングは、「可変幅エンコーディング」と呼ばれるものを使用して、これらを何らかの方法ではるかに小さなスペースに圧縮します。 実際、US-ASCIIの最初の127文字を実際のASCIIのように見えるちょうど1バイトで表すことができるので、何もしなくても多くのASCIIテキストをUTF-8であるかのように解釈できます。きちんとしたトリック。それはどのように機能するのでしょうか? 私はここで自分の質問をし、それに答えるつもりです。なぜなら、それを理解するために少し読んだだけで、誰かが時間を節約できると思ったからです。それに、もし私がそれのいくつかを間違っているなら、誰かが私を訂正してくれるかもしれません。

3
実際に使用されている最も一般的な非BMP Unicode文字は何ですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 6年前休業。 この質問を改善する これまでの経験で、BMP(Basic Multilingual Plane)以外のUnicode文字、コードポイント、範囲は、これまでで最も一般的ですか?これらは、UTF-8では4バイト、UTF-16ではサロゲートを必要とするものです。 名前には中国語と日本語の文字が使用されているが、最も普及しているCJKマルチバイト文字セットには含まれていないと思いましたが、私が最も取り組んでいるプロジェクトである英語ウィクショナリーでは、ゴシックアルファベットが今のところはるかに一般的です。 更新 私はウィキペディア全体でBMP以外の文字をスキャンするソフトウェアツールをいくつか作成しましたが、驚いたことに、日本のウィキペディアでもゴシックアルファベットが最も一般的であることがわかりました。これは、中国語版ウィキペディアにも当てはまりますが、「𨭎」、「𠬠」、「𩷶」など、多くの漢字が最大50回または70回使用されていました。

5
Unicode文字をURLエンコードする適切な方法は何ですか?
非標準の%uxxxxスキームを知っていますが、このスキームはW3Cによって拒否されているため、賢明な選択とは思えません。 いくつかの興味深い例: ハートのキャラクター。これをブラウザに入力すると: http://www.google.com/search?q=♥ 次に、コピーして貼り付けます。このURLが表示されます http://www.google.com/search?q=%E2%99%A5 これにより、Firefox(またはSafari)がこれを実行しているように見えます。 urllib.quote_plus(x.encode("latin-1")) '%E2%99%A5' トリプルドット文字のように、Latin-1でエンコードできないものを除いて、これは理にかなっています。 … URLを入力すると http://www.google.com/search?q=… ブラウザにコピーして貼り付けます http://www.google.com/search?q=%E2%80%A6 バック。それはやっての結果のようです urllib.quote_plus(x.encode("utf-8")) …Latin-1でエンコードできないため、これは理にかなっています。 しかし、ブラウザがUTF-8とLatin-1のどちらでデコードするかをどのように判断するかは、はっきりしていません。 これはあいまいなようですので: In [67]: u"…".encode('utf-8').decode('latin-1') Out[67]: u'\xc3\xa2\xc2\x80\xc2\xa6' 動作するので、ブラウザがUTF-8またはLatin-1のいずれでデコードするかをブラウザがどのように判断するのかわかりません。 処理する必要がある特殊文字をどのように処理すればよいですか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.