タグ付けされた質問 「unicode」

Unicodeは、すべての書記体系、技術記号、句読点を組み込んだテキストに必要なすべての文字をサポートすることを目的とした、テキストのエンコード、表現、処理の標準です。

17
文字セット間でテキストファイルを変換する最良の方法は?
文字セット間でテキストファイルを変換する最も速くて簡単なツールまたは方法は何ですか? 具体的には、UTF-8からISO-8859-15に、またはその逆に変換する必要があります。 すべてがうまくいきます:お好きなスクリプト言語のワンライナー、コマンドラインツール、またはOSやWebサイトなどのその他のユーティリティ。 これまでのベストソリューション: Linux / UNIX / OS X / cygwinの場合: Troels Arvinによって提案されたGnu iconvは、フィルターとして最適に使用されます。それは普遍的に利用できるようです。例: $ iconv -f UTF-8 -t ISO-8859-15 in.txt > out.txt ベンが指摘したように、iconvを使用したオンラインコンバータがあります。 ヌーのrecodeの(手動による提案)Cheekysoft変換するインプレースで一つまたは複数のファイルを。例: $ recode UTF8..ISO-8859-15 in.txt これはより短いエイリアスを使用します: $ recode utf8..l9 in.txt Recodeは、さまざまな行末タイプとエンコーディング間の変換に使用できるサーフェスもサポートしています。 改行をLF(Unix)からCR-LF(DOS)に変換します。 $ recode ../CR-LF in.txt Base64エンコードファイル: $ recode ../Base64 in.txt それらを組み合わせることもできます。 Unixの行末でBase64エンコードされたUTF8ファイルを、Dosの行末でBase64エンコードされたLatin 1ファイルに変換します。 $ …

8
Pythonユニコード文字列のアクセントを削除する最良の方法は何ですか?
PythonにUnicode文字列があり、すべてのアクセント(発音区別符号)を削除したいと思います。 私はJavaでこれを行うエレガントな方法をWebで見つけました: Unicode文字列をその長い正規化された形式に変換します(文字と発音区別符号に別の文字を使用) Unicodeタイプが「発音区別符号」であるすべての文字を削除します。 pyICUなどのライブラリをインストールする必要がありますか、それともpython標準ライブラリだけで可能ですか?そして、python 3はどうですか? 重要な注意:アクセント記号付き文字からアクセント記号なしの対応する文字への明示的なマッピングを含むコードは避けたいです。



12
UTF-8、UTF-16、およびUTF-32
UTF-8、UTF-16、UTF-32の違いは何ですか? それらはすべてUnicodeを格納し、それぞれが文字を表すために異なるバイト数を使用することを理解しています。どちらを選択するかには利点がありますか?
487 unicode  utf-8  utf-16  utf  utf-32 

12
json.dumpsのutf-8テキストを\ uエスケープシーケンスではなくUTF8として保存する
サンプルコード: >>> import json >>> json_string = json.dumps("ברי צקלה") >>> print json_string "\u05d1\u05e8\u05d9 \u05e6\u05e7\u05dc\u05d4" 問題:人間が読める形式ではありません。私の(スマートな)ユーザーは、JSONダンプを使用してテキストファイルを確認または編集することを望んでいます(XMLを使用したくありません)。 オブジェクトを(の代わりに\uXXXX)UTF-8 JSON文字列にシリアル化する方法はあり ますか?
474 python  json  unicode  utf-8  escaping 

30
文字列を逆にする最良の方法
私はC#2.0(つまり、LINQは利用できません)で文字列逆関数を作成する必要があり、これを思いつきました: public string Reverse(string text) { char[] cArray = text.ToCharArray(); string reverse = String.Empty; for (int i = cArray.Length - 1; i > -1; i--) { reverse += cArray[i]; } return reverse; } 個人的に私はその機能に夢中ではなく、それを行うためのより良い方法があると確信しています。ある?

18
Pythonを使用してパンダでCSVファイルを読み取るときのUnicodeDecodeError
30,000の同様のファイルを処理するプログラムを実行しています。それらのランダムな数が停止し、このエラーが発生しています... File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 205, in _read return parser.read() File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 608, in read ret = self._engine.read(nrows) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 1028, in read data = self._reader.read(nrows) File "parser.pyx", line 706, …


9
Unicode、UTF-8、UTF-16とは何ですか?
Unicodeの基礎とは何か、なぜUTF-8またはUTF-16が必要なのか?私はこれをグーグルで研究し、ここでも検索しましたが、私にはわかりません。 VSSでファイル比較を行うと、2つのファイルのUTFが異なるというメッセージが表示されることがあります。なぜこれが当てはまるのでしょうか? 簡単に説明してください。

5
なぜ2 + 40は42に等しいのですか?
同僚がこのJavaScriptの警告42の行を見せてくれたとき、私は困惑しました。 alert(2+ 40); コードスニペットを実行する結果を非表示スニペットを展開 マイナス記号のように見えるのは、実際にはセマンティクスが明らかに異なる難解なUnicode文字であることがすぐにわかります。 これにより、式の解析時にその文字が構文エラーを生成しないのはなぜかと疑問に思いました。このように振る舞うキャラクターが他にもいるかどうかも知りたいです。

11
ASCII以外のすべての文字をgrepするにはどうすればよいですか?
非常に大きなXMLファイルがいくつかあり、ASCII以外の文字を含む行を見つけようとしています。私は以下を試しました: grep -e "[\x{00FF}-\x{FFFF}]" file.xml ただし、指定した範囲の文字が含まれているかどうかに関係なく、ファイルのすべての行が返されます。 構文が間違っているのですか、それとも他の何か間違っているのですか?私も試しました: egrep "[\x{00FF}-\x{FFFF}]" file.xml (パターンを一重引用符と二重引用符で囲みます)。
359 regex  unix  unicode  grep 


6
Rで文字列の長さを見つける方法
Rで分割せずに文字列の長さ(文字列の文字数)を見つける方法は?文字列ではなくリストの長さを見つける方法を知っています。 そして、Unicode文字列はどうですか?Unicode文字列の長さ(バイト単位)と文字数(ルーン文字、記号)を確認するにはどうすればよいですか? 関連質問: RのUnicode文字列で「実際の」文字数を見つける方法

14
PythonでのUnicode(UTF-8)ファイルの読み取りと書き込み
ファイルへのテキストの読み取りと書き込み(Python 2.4)を理解するときに、いくつかの脳の障害があります。 # The string, which has an a-acute in it. ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) ( "u'Capit \ xe1n '"、 "' Capit \ xc3 \ xa1n '") print ss, ss8 print >> open('f1','w'), ss8 >>> file('f1').read() 'Capit\xc3\xa1n\n' それでCapit\xc3\xa1n、ファイルf2でお気に入りのエディターに入力します。 次に: >>> open('f1').read() 'Capit\xc3\xa1n\n' >>> open('f2').read() 'Capit\\xc3\\xa1n\n' >>> …
330 python  unicode  utf-8  io 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.