タグ付けされた質問 「unicode」

Unicodeは、すべての書記体系、技術記号、句読点を組み込んだテキストに必要なすべての文字をサポートすることを目的とした、テキストのエンコード、表現、処理の標準です。

16
UnicodeDecodeError: 'ascii'コーデックは位置1のバイト0xefをデコードできません
文字列をUTF-8にエンコードしようとすると、いくつか問題が発生します。string.encode('utf-8')andの使用などunicode(string)、さまざまなことを試しましたが、エラーが発生します。 UnicodeDecodeError: 'ascii'コーデックは位置1のバイト0xefをデコードできません:序数が範囲外です(128) これは私の文字列です: (。・ω・。)ノ 何が問題になっているのかわかりません。 編集:問題は、文字列をそのまま印刷しても正しく表示されないことです。また、変換しようとしたときのこのエラー: Python 2.7.1+ (r271:86832, Apr 11 2011, 18:13:53) [GCC 4.5.2] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> s = '(\xef\xbd\xa1\xef\xbd\xa5\xcf\x89\xef\xbd\xa5\xef\xbd\xa1)\xef\xbe\x89' >>> s1 = s.decode('utf-8') >>> print s1 Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeEncodeError: …
106 python  unicode  utf-8 

3
文字列の途中からカルチャに依存した「starts-with」操作を実行するにはどうすればよいですか?
比較的あいまいな要件がありますが、BCLを使用して可能であると思われます。 コンテキストとして、日付/時刻文字列を野田時間で解析しています。入力文字列内の自分の位置に論理カーソルを保持しています。したがって、完全な文字列は「2013年1月3日」である可能性がありますが、論理カーソルは「J」にある可能性があります。 ここで、月名を解析し、カルチャーのすべての既知の月名と比較する必要があります。 文化に敏感 大文字と小文字を区別しない カーソルのポイントから(後でではなく、カーソルが候補月の名前を「見ている」かどうかを確認したい) 早く ...そして、後で何文字使用したかを知る必要があります これを行う現在のコードは、通常、を使用して機能しCompareInfo.Compareます。これは効果的に次のようになります(一致する部分についてだけです-実際にはより多くのコードがありますが、一致には関係ありません)。 internal bool MatchCaseInsensitive(string candidate, CompareInfo compareInfo) { return compareInfo.Compare(text, position, candidate.Length, candidate, 0, candidate.Length, CompareOptions.IgnoreCase) == 0; } しかし、それは候補者と私たちが比較する地域が同じ長さであることに依存しています。ほとんどの場合問題ありませんが、一部の特殊なケースでは問題ありません。次のようなものがあるとします。 // U+00E9 is a single code point for e-acute var text = "x b\u00e9d y"; int position = 2; // e followed …
106 .net  string  unicode 

4
Java文字列のUnicodeコードポイントをどのように反復できますか?
だから私はについて知っていますが、コードポイントのオフセットではなくString#codePointAt(int)、charオフセットによってインデックスが付けられます。 私は次のようなことを試みることを考えています: インデックスでのString#charAt(int)取得に使用char charが高代理の範囲にあるかどうかのテスト もしそうなら、を使用String#codePointAt(int)してコードポイントを取得し、インデックスを2増やします そうでない場合は、指定されたchar値をコードポイントとして使用し、インデックスを1増やします しかし、私の懸念は 自然に高代理変数の範囲にあるコードポイントが2つのchar値として格納されるのか、1 つの値として格納されるのかわかりません これは、キャラクターを反復処理するための非常に高価な方法のようです 誰かがもっと良いものを考え出したに違いない。
105 java  string  unicode 


11
Pythonインタプリタに文字列操作で非ASCII文字を正しく処理させるにはどうすればよいですか?
次のような文字列があります。 6Â 918Â 417Â 712 この文字列をトリミングする明確な方法(Pythonを理解しているように)は、文字列がと呼ばれる変数にあると言うだけsです。 s.replace('Â ', '') これでうまくいくはずです。しかしもちろん、'\xc2'blabla.pyファイル内の非ASCII文字がエンコードされていないことを訴えます。 異なるエンコーディングを切り替える方法を私はまったく理解できませんでした。 ここにコードがあります、それは実際には上記と同じですが、今はコンテキストにあります。ファイルはメモ帳でUTF-8として保存され、次のヘッダーがあります。 #!/usr/bin/python2.4 # -*- coding: utf-8 -*- コード: f = urllib.urlopen(url) soup = BeautifulSoup(f) s = soup.find('div', {'id':'main_count'}) #making a print 's' here goes well. it shows 6Â 918Â 417Â 712 s.replace('Â ','') save_main_count(s) それ以上のことはありませんs.replace...
104 python  unicode 

9
Python Unicodeエンコードエラー
Amazon XMLファイルを読み取って解析していますが、XMLファイルに 'が表示されているのに、印刷しようとすると次のエラーが発生します。 'ascii' codec can't encode character u'\u2019' in position 16: ordinal not in range(128) これまでオンラインで読んだことから、エラーはXMLファイルがUTF-8であるという事実に起因していますが、PythonはそれをASCIIエンコード文字として処理したいと考えています。エラーをなくし、プログラムがXMLを読み取るときにXMLを印刷する簡単な方法はありますか?
104 python  unicode  ascii  encode 

12
JavaScriptのバイト単位の文字列長
私のJavaScriptコードでは、次の形式でサーバーへのメッセージを作成する必要があります。 <size in bytes>CRLF <data>CRLF 例: 3 foo データにはUnicode文字が含まれる場合があります。それらをUTF-8として送信する必要があります。 JavaScriptで文字列の長さをバイト単位で計算するための最もクロスブラウザな方法を探しています。 私はこれを試してペイロードを作成しました: return unescape(encodeURIComponent(str)).length + "\n" + str + "\n" しかし、それは古いブラウザー(または、おそらくそれらのブラウザーの文字列(UTF-16))に対して正確な結果を与えません。 手がかりはありますか? 更新: 例:ЭЭХ! Naïve?UTF-8の文字列の長さ(バイト)は15バイトですが、ブラウザによっては代わりに23バイトを報告します。

5
XAMLにUnicode文字を入れる方法は?
私はこれをやろうとしています: <TextBlock Text="{Binding Path=Text, Converter={StaticResource stringFormatConverter}, ConverterParameter='&\u2014{0}'}" /> 取得するには—テキストの前に表示されます。動作しません。ここで何をするべきですか?
104 wpf  xaml  unicode  binding 

8
Pythonでファイルから文字を読み取る
テキストファイルには、「これは好きではありません」という文字列があります。 しかし、それを文字列に読み込むと、「こんな風に\ xe2 \ x80 \ x98t」のようになります。\ u2018が「 '」のUnicode表現であることを理解しています。私が使う f1 = open (file1, "r") text = f1.read() 読み取りを行うコマンド。 さて、文字列に読み込まれたときに、「I like \ xe2 \ x80 \ x98t like this like this」の代わりに、「I do n't like this」のように文字列を読み取ることはできますか? 2番目の編集:この問題を解決するためにマッピングを使用する人を見たことがありますが、実際には、この種のANSIをUnicodeに(またはその逆に)変換する組み込みの変換はありませんか?

5
Apache Commonsが「१२३」を数値と見なすのはなぜですか?
のApache Commons LangのドキュメントによるとStringUtils.isNumeric()、文字列「१२३」は数値です。 これはドキュメントの間違いかもしれないと思ったので、テストを実行してステートメントを検証しました。Apache Commonsによると、数値であることがわかりました。 なぜこの文字列は数値なのですか?それらのキャラクターは何を表していますか?

6
Python 2.6でunicode_literalsを使用している落とし穴はありますか?
Python 2.6で実行しているコードベースをすでに取得しています。Python 3.0を準備するために、以下を追加しました。 __future__からインポートunicode_literals 私たちの.pyファイルに(私たちがそれらを変更するにつれて)。他の誰かがこれを行っていて、(おそらくデバッグに多くの時間を費やした後で)明らかでない落とし穴に遭遇したのではないかと思います。

4
Python strとUnicodeタイプ
Python 2.7で作業しているときに、のunicode代わりにタイプを使用することにはどのような真の利点があるのだろうと思いstrます。どちらもUnicode文字列を保持できるようです。unicodeエスケープ文字を使用して文字列にUnicodeコードを設定できること以外に、特別な理由はあります\か? 以下を使用してモジュールを実行する: # -*- coding: utf-8 -*- a = 'á' ua = u'á' print a, ua 結果:á、á 編集: Pythonシェルを使用したテスト: >>> a = 'á' >>> a '\xc3\xa1' >>> ua = u'á' >>> ua u'\xe1' >>> ua.encode('utf8') '\xc3\xa1' >>> ua.encode('latin1') '\xe1' >>> ua u'\xe1' したがって、unicode文字列はのlatin1代わりにutf-8を使用してエンコードされているようで、生の文字列はutf-8?私は今さらに混乱しています!:S
101 python  string  unicode 

4
ggplot2でギリシャ語の記号を使用する方法
カテゴリにはギリシャ文字で名前を付ける必要があります。私はを使用ggplot2しており、データを問題なく処理します。残念ながら、これらのギリシャ記号をx軸(目盛り)に配置し、凡例に表示する方法もわかりません。それを行う方法はありますか? 更新:私はリンクを見ましたが、私がやりたいことを達成するために説明された良い方法はありません。
101 r  graphics  unicode  utf-8  ggplot2 

7
Pythonを使用して非ASCII文字を削除し、ピリオドとスペースを残すにはどうすればよいですか?
.txtファイルを使用しています。ASCII以外の文字を含まないファイルのテキスト文字列が必要です。ただし、スペースやピリオドは残したい。現在、私もそれらを取り除いています。これがコードです: def onlyascii(char): if ord(char) < 48 or ord(char) > 127: return '' else: return char def get_my_string(file_path): f=open(file_path,'r') data=f.read() f.close() filtered_data=filter(onlyascii, data) filtered_data = filtered_data.lower() return filtered_data onlyascii()を変更してスペースとピリオドを残すにはどうすればよいですか?それほど複雑ではないと思いますが、理解できません。
100 python  text  unicode  filter  ascii 

3
ファイルにリダイレクトするときのUnicodeDecodeError
私はUbuntuの端末に一回で、(UTF-8に設定をコードする)、二回このスニペットを実行./test.pyし、その後で./test.py >out.txt: uni = u"\u001A\u0BC3\u1451\U0001D10C" print uni リダイレクトしないと、ゴミが表示されます。リダイレクトすると、UnicodeDecodeErrorが発生します。誰かが2番目のケースでのみエラーが発生する理由を説明できますか、それとも両方のケースでカーテンの後ろで何が起こっているのかを詳しく説明できますか?
100 python  unicode 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.