タグ付けされた質問 「unicode」

Unicodeは、すべての書記体系、技術記号、句読点を組み込んだテキストに必要なすべての文字をサポートすることを目的とした、テキストのエンコード、表現、処理の標準です。

9
Djangoでユニコード文字列を保存すると、MySQLの「不正な文字列値」エラー
first_name、last_nameをDjangoのauth_userモデルに保存しようとすると、奇妙なエラーメッセージが表示されました。 失敗した例 user = User.object.create_user(username, email, password) user.first_name = u'Rytis' user.last_name = u'Slatkevičius' user.save() >>> Incorrect string value: '\xC4\x8Dius' for column 'last_name' at row 104 user.first_name = u'Валерий' user.last_name = u'Богданов' user.save() >>> Incorrect string value: '\xD0\x92\xD0\xB0\xD0\xBB...' for column 'first_name' at row 104 user.first_name = u'Krzysztof' user.last_name = u'Szukiełojć' user.save() …
158 python  mysql  django  unicode  utf-8 

3
Python:Unicodeエスケープ文字列での.format()の使用
Python 2.6.5を使用しています。私のコードでは、「以上」記号を使用する必要があります。ここに行く: >>> s = u'\u2265' >>> print s >>> ≥ >>> print "{0}".format(s) Traceback (most recent call last): File "<input>", line 1, in <module> UnicodeEncodeError: 'ascii' codec can't encode character u'\u2265' in position 0: ordinal not in range(128)` このエラーが発生するのはなぜですか?これを行う正しい方法はありますか?.format()関数を使用する必要があります。

6
Python文字列のu '\ ufeff'
次のパターンでエラーが発生します。 UnicodeEncodeError: 'ascii' codec can't encode character u'\ufeff' in position 155: ordinal not in range(128) 何なのかわからないu'\ufeff'、私がWebをこするときに表示されます。どうすれば状況を改善できますか?.replace()文字列のメソッドは機能しません。
152 python  unicode  utf-8 



13
Python、Unicode、およびWindowsコンソール
OverаэтотвопросестьответынаStack Overflowнарусском:PythonакизPythonвывестинаWindows-консольстрокувЮникоде? WindowsコンソールでUnicode文字列を印刷しようとすると、UnicodeEncodeError: 'charmap' codec can't encode character ....エラーが発生します。これは、WindowsコンソールがUnicodeのみの文字を受け入れないためだと思います。これを回避する最良の方法は何ですか??この状況で失敗するのではなく、Pythonに自動的にを印刷させる方法はありますか? 編集: 私はPython 2.5を使用しています。 注:チェックマークの付いた@ LasseV.Karlsenの回答は(2008年から)少し古くなっています。以下の解決策/回答/提案を慎重に使用してください!! @JFSebastianの回答は、今日(2016年1月6日)より関連性が高くなります。
146 python  unicode 

2
文字、コードポイント、グリフ、書記素の違いは何ですか?
現代のUnicodeの繊細さを理解しようとすると、頭が痛くなります。特に、コードポイント、文字、グリフ、および書記素の違い- 最も単純な概念ケースでは、ASCII文字を使用して英語のテキストを処理するときに、すべて互いに1対1の関係問題を引き起こしています。 これらの用語がMatthias BynensのJavaScriptのようなドキュメントでどのように使用されるかを見て、Unicodeの問題またはWikipediaのHanの統一に関する部分に、これらの概念は同じものではなく、それらを混同することは危険だと収集しましたが、私は一種の各用語の意味を理解するのに苦労しています。 Unicodeコンソーシアムは、このことを説明する用語集を提供していますが、次のような「定義」でいっぱいです。 抽象文字。テキストデータの編成、制御、または表現に使用される情報の単位。... ... キャラクター。...(2)抽象文字の同義語。(3)Unicode文字エンコーディングのエンコーディングの基本単位。... ... グリフ。(1)1つ以上のグリフ画像を表す抽象的なフォーム。(2)グリフ画像の同義語。Unicode文字データの表示では、特定の文字を表すために1つ以上のグリフを選択できます。 ... 書記素。(1)特定の書記体系に照らして、最小の特徴を持つ筆記単位。... これらの定義のほとんどは、非常に学術的で正式な響きの品質を備えていますが、何を意味する品質にも欠けていますか、定義の問題を標準のさらに別の用語集エントリまたはセクションに委ねています。 それで、私は私よりも多くのことを学んだそれらの難解な知恵を求めます。これらの概念のそれぞれはどの程度正確に互いに異なり、どのような状況でそれらは互いに1対1の関係を持たないでしょうか?


10
Python文字列は[u'String ']として出力されます
OverантотвопросестьответынаStack Overflowнарусском:покодировкамutf-8выдаетрезультатпо-ренепо-ретпо-ререпо-ретпо-ретпо-рет これは確かに簡単なものになるでしょうが、本当に私を悩ませています。 Webページを読み取り、Beautiful Soupを使用してそれを解析するスクリプトがあります。私の最終的な目標はlink.contentsを出力することなので、スープからすべてのリンクを抽出します。 私が解析しているテキストはすべてASCIIです。Pythonは文字列をUnicodeとして扱うことを知っています。これは非常に便利で、weeスクリプトでは役に立たないと思います。 「文字列」を保持する変数を出力するたび[u'String']に、画面に出力されます。これを単にASCIIに戻す簡単な方法はありますか、それを取り除くための正規表現を書く必要がありますか?
142 python  unicode  ascii 

8
gitにUTF-16ファイルをテキストとして認識させることはできますか?
Virtual PC仮想マシンファイル(* .vmc)をgitで追跡していますが、変更を加えた後、gitはファイルをバイナリとして識別し、差分を表示しません。ファイルがUTF-16でエンコードされていることを発見しました。 このファイルがテキストであることを認識し、適切に処理するようにgitを教えることができますか? Cygwinでgitを使用していますが、core.autocrlfをfalseに設定しています。必要に応じて、UNIXでmSysGitまたはgitを使用できます。

6
デフォルトのエンコーディングがASCIIの場合、なぜPythonはUnicode文字を出力するのですか?
Python 2.6シェルから: >>> import sys >>> print sys.getdefaultencoding() ascii >>> print u'\xe9' é >>> 「é」文字はASCIIの一部ではなく、エンコーディングも指定していないため、printステートメントの後に意味不明またはエラーが発生するはずです。デフォルトのエンコーディングであるASCIIが何を意味するのか理解できません。 編集 編集を[ 回答]セクションに移動し、提案どおりに承認しました。

5
UTF-8とUTF-16の違いは?
UTF-8とUTF-16の違いは?なぜこれらが必要なのですか? MessageDigest md = MessageDigest.getInstance("SHA-256"); String text = "This is some text"; md.update(text.getBytes("UTF-8")); // Change this to "UTF-16" if needed byte[] digest = md.digest();
137 java  unicode  utf-8  utf-16  utf 

4
NameError:グローバル名 'unicode'が定義されていません-Python 3
BidiというPythonパッケージを使用しようとしています。このパッケージのモジュール(algorithm.py)には、パッケージの一部ですが、エラーが発生する行がいくつかあります。 ここに行があります: # utf-8 ? we need unicode if isinstance(unicode_or_str, unicode): text = unicode_or_str decoded = False else: text = unicode_or_str.decode(encoding) decoded = True そしてここにエラーメッセージがあります: Traceback (most recent call last): File "<pyshell#25>", line 1, in <module> bidi_text = get_display(reshaped_text) File "C:\Python33\lib\site-packages\python_bidi-0.3.4-py3.3.egg\bidi\algorithm.py", line 602, in get_display if isinstance(unicode_or_str, unicode): NameError: global …

7
URLのUnicode文字
2010年に、大規模なWebポータルでUTF-8文字を含むURLを提供しますか? URLのRFCに従って、Unicode文字は禁止されています(こちらを参照)。標準に準拠するには、パーセントエンコードする必要があります。 ただし、私の主なポイントは、見栄えの良いURLを提供することのみを目的として、エンコードされていない文字を提供することです。 RFCの内容に関係なく、すべての主要なブラウザがこれらのURLを解析しているようです。しかし、私の一般的な印象は、Webブラウザーのドメインを離れると非常に不安定になるということです。 テキストファイル、電子メール、さらにはエンコードが異なるWebサイトにコピー+貼り付けされたURL HTTPクライアントライブラリ エキゾチックなブラウザ、RSSリーダー 私の印象はここでトラブルが予想されるということで正しいので、技術者以外のユーザーにサービスを提供していて、引用されて伝えられた場合でもすべてのリンクが適切に機能することが重要である場合、(まだ)現実的な解決策ではありませんか? HTMLで見栄えの良いURLを提供する魔法の方法はありますか http://www.example.com/düsseldorf?neighbourhood=Lörick 特殊文字はそのままコピー+貼り付けできますが、古いクライアントで再利用すると正しく機能しますか?
135 html  url  unicode  utf-8 

3
JavaScriptにUnicode文字を挿入する
オメガ(Ω)をHTMLページに挿入する必要があります。そのためにHTMLエスケープコードを使用しているので、ΩΩを記述して取得できます。私がそれをHTML要素に入れると、それで問題ありません。しかし、それを私のJSに挿入しようとすると、たとえばvar Omega = Ω、そのコードがJSとして解析され、全体が機能しません。誰もがこれについてどうやって行くか知っていますか?
133 javascript  html  unicode 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.