プログラミング unicode

18

Team Foundation Server（TFS）に、英語以外の文字（š）が含まれているプロジェクトがあります。ビルド関連のいくつかのスクリプトを作成しようとしたときに、問題に遭遇しました-š文字をコマンドラインツールに渡すことができません。コマンドプロンプトまたはそれ以外のものが混乱し、tf.exeユーティリティが指定されたプロジェクトを見つけられません。 .batファイルのさまざまな形式（ANSI、UTF-8とBOMの有無）を試し、JavaScript（本来はUnicode）でスクリプトを作成しましたが、うまくいきませんでした。プログラムを実行してUnicodeコマンドラインに渡すにはどうすればよいですか？

317 unicode command-line input windows-console

10

TypeErrorの修正方法：ハッシュする前にUnicodeオブジェクトをエンコードする必要がありますか？

私はこのエラーがあります： Traceback (most recent call last): File "python_md5_cracker.py", line 27, in <module> m.update(line) TypeError: Unicode-objects must be encoded before hashing このコードをPython 3.2.2で実行しようとすると： import hashlib, sys m = hashlib.md5() hash = "" hash_file = input("What is the file name in which the hash resides? ") wordlist = input("What is your wordlist? …

295 python python-3.x unicode syntax-error hashlib

6

SyntaxError：関数が '£'を返す場合、ファイル内の非ASCII文字 '\ xa3'

私に機能があるとしましょう： def NewFunction(): return '£' シャープ記号を前に付けて印刷したいのですが、このプログラムを実行しようとするとエラーが表示され、次のエラーメッセージが表示されます。 SyntaxError: Non-ASCII character '\xa3' in file 'blah' but no encoding declared; see http://www.python.org/peps/pep-0263.html for details 誰でも、リターン関数にポンド記号を含める方法を教えてもらえますか？基本的にはクラスで使用しています'__str__'が、ポンド記号が含まれているのはその部分です。

284 python unicode python-unicode

21

JSONからUnicodeではなく文字列オブジェクトを取得する方法

Python 2を使用して、ASCIIエンコードされたテキストファイルからJSONを解析しています。 jsonまたは simplejsonでこれらのファイルをロードすると、すべての文字列値が文字列オブジェクトではなくUnicodeオブジェクトにキャストされます。問題は、文字列オブジェクトのみを受け入れる一部のライブラリでデータを使用する必要があることです。私は、ライブラリを変更することはできませんもそれらを更新します。 Unicodeオブジェクトの代わりに文字列オブジェクトを取得することは可能ですか？例 >>> import json >>> original_list = ['a', 'b'] >>> json_list = json.dumps(original_list) >>> json_list '["a", "b"]' >>> new_list = json.loads(json_list) >>> new_list [u'a', u'b'] # I want these to be of type `str`, not `unicode` 更新この質問は、Python 2に悩まされていた昔のことです。今日の簡単でクリーンなソリューションの1つは、Pythonの最新バージョン、つまりPython 3以降を使用することです。

276 python json serialization unicode python-2.x

11

文字列がUnicodeまたはASCIIかどうかを確認するにはどうすればよいですか？

文字列のエンコーディングを把握するには、Pythonで何をする必要がありますか？

271 python unicode encoding utf-8

4

逆に書かれたこのコードが「Hello World！」を出力する理由

インターネットで見つけたコードは次のとおりです。 class M‮{public static void main(String[]a‭){System.out.print(new char[] {'H','e','l','l','o',' ','W','o','r','l','d','!'});}} このコードHello World!は画面に表示されます。ここで実行されていることがわかります。はっきりpublic static void main書いてあるように見えますが、逆です。このコードはどのように機能しますか？これはどのようにコンパイルされますか？編集： IntellIJでこのコードを試しましたが、正常に動作します。ただし、何らかの理由で、cmdと一緒にnotepad ++では機能しません。私はまだその解決策を見つけていませんので、誰かが見つけた場合は、以下にコメントしてください。

261 java unicode right-to-left

9

UnicodeDecodeError、無効な継続バイト

以下のアイテムが失敗するのはなぜですか？そして、なぜ「latin-1」コーデックで成功するのですか？ o = "a test of \xe9 char" #I want this to remain a string as this is what I am receiving v = o.decode("utf-8") 結果は： Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\Python27\lib\encodings\utf_8.py", line 16, in decode return codecs.utf_8_decode(input, errors, True) UnicodeDecodeError: 'utf8' codec …

257 python unicode decode

7

非ASCII文字を1つのスペースに置き換えます

非ASCII（\ x00- \ x7F）のすべての文字をスペースに置き換える必要があります。私が何かを欠落していない限り、これはPythonでは簡単なことではないことに驚いています。次の関数は、すべての非ASCII文字を単に削除します。 def remove_non_ascii_1(text): return ''.join(i for i in text if ord(i)<128) そして、これは非ASCII文字を文字コードポイントのバイト数に従ってスペースの量で–置き換えます（すなわち、文字は3つのスペースで置き換えられます）： def remove_non_ascii_2(text): return re.sub(r'[^\x00-\x7F]',' ', text) ASCII以外のすべての文字を1つのスペースに置き換えるにはどうすればよいですか？無数の同様のSOの質問、なしのアドレス文字代替として反対するストリッピング、そしてさらにすべての非ASCII文字ではない、特定の文字取り組みます。

244 python unicode encoding ascii

13

Python：文字列から\ xa0を削除しますか？

現在、Beautiful Soupを使用してHTMLファイルを解析し、を呼び出していますが、get_text()スペースを表す多くの\ xa0 Unicodeが残っているようです。Python 2.7でそれらすべてを削除し、スペースに変更する効率的な方法はありますか？より一般的な質問になると思いますが、Unicode形式を削除する方法はありますか？ line = line.replace(u'\xa0',' ')別のスレッドで提案されているように、を使用してみましたが、\ xa0がuに変更されたため、代わりに "u"がどこにでもあります。）：編集：問題はによって解決されたようですがstr.replace(u'\xa0', ' ').encode('utf-8')、.encode('utf-8')何もせずに実行するreplace()と、たとえば\ xc2などの奇妙な文字が吐き出されます。誰かがこれを説明できますか？

240 python parsing unicode

12

1つのUnicode文字は何バイトかかりますか？

エンコーディングについて少し混乱しています。私の知る限り、古いASCII文字は1文字あたり1バイトを使用していました。Unicode文字には何バイト必要ですか？ 1つのUnicode文字に任意の言語のすべての可能な文字を含めることができると思います-私は正しいですか？それでは、1文字あたり何バイト必要ですか？そして、UTF-7、UTF-6、UTF-16などはどういう意味ですか？Unicodeの異なるバージョンですか？ Unicodeに関するWikipediaの記事を読みましたが、それは私にとって非常に困難です。簡単な答えを楽しみにしています。

239 string language-agnostic unicode encoding

5

vimでファイルのエンコーディングを変更するにはどうすればよいですか？

私はvimを使用してファイルの行末を変更することに慣れています。 $ file file file: ASCII text, with CRLF line terminators $ vim file :set ff=mac :wq $ file file file: ASCII text, with CR line terminators 同様のプロセスを使用してファイルのUnicodeエンコーディングを変更することは可能ですか？私は次のことを試していますが、うまくいきません： $ file file.xml file.xml: Unicode text, UTF-16, little-endian $ vim file :set encoding=utf-8 :wq $ file file.xml file.xml: Unicode text, UTF-16, little-endian …

235 vim unicode

8

Unicodeテキストをテキストファイルに書き込みますか？

Googleドキュメントからデータを引き出して処理し、ファイルに書き込みます（最終的にはWordpressページに貼り付けます）。いくつかの非ASCIIシンボルがあります。これらをHTMLソースで使用できるシンボルに安全に変換するにはどうすればよいですか？現在、私は途中ですべてをUnicodeに変換し、それをすべてPython文字列に結合してから、次のようにしています： import codecs f = codecs.open('out.txt', mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-8859-1", "replace")) 最終行にエンコードエラーがあります： UnicodeDecodeError： 'ascii'コーデックは位置12286のバイト0xa0をデコードできません：序数が範囲（128）にありません部分的な解決策：このPythonはエラーなしで実行されます。 row = [unicode(x.strip()) if x is not None else u'' for x in row] all_html = row[0] + "<br/>" + row[1] f = open('out.txt', 'w') f.write(all_html.encode("utf-8")) しかし、実際のテキストファイルを開くと、次のような多くの記号が表示されます。 Qur‚Äôan テキストファイル以外のものに書き込む必要があるのでしょうか。

225 python unicode character-encoding python-2.x

5

C ++での_tmain（）とmain（）の違いは何ですか？

C ++アプリケーションを次のmain（）メソッドで実行すると、すべて問題ありません。 int main(int argc, char *argv[]) { cout << "There are " << argc << " arguments:" << endl; // Loop through each argument and print its number and value for (int i=0; i<argc; i++) cout << i << " " << argv[i] << endl; return 0; } 期待どおりの結果が得られ、引数が出力されます。 …

224 c++ unicode arguments

18

Bashで4桁のUnicode文字をどのようにエコーしますか？

シェルプロンプトにUnicodeの頭蓋骨とクロスボーン（具体的には 'SKULL AND CROSSBONES'（U + 2620））を追加したいのですが、それをエコーで吐き出す魔法の呪文などを理解できません。 4桁のUnicode文字。2桁のものは簡単です。たとえば、echo -e "\ x55"、。以下の回答に加えて、出力が期待どおりになるためには、明らかに、端末がUnicodeをサポートしている必要があることに注意してください。gnome-terminalはこれをうまく行いますが、デフォルトで必ずしもオンになっているとは限りません。 macOSのターミナルアプリで、[設定]-> [エンコード]に移動し、[Unicode（UTF-8）]を選択します。

224 bash shell unicode character-encoding

11

JavaScript + Unicode正規表現

JavaScriptでUnicode対応の正規表現を使用するにはどうすればよいですか？たとえば\w、ASCIIだけでなく、LettersまたはMarksカテゴリの任意のコードポイントに一致するようなものがあって、句読点などの[[P *]]のようなフィルタが必要です。

216 javascript regex unicode character-properties

タグ付けされた質問 「unicode」

タグ付けされた質問「unicode」