タグ付けされた質問 「utf-8」

UTF-8は、1〜4バイトのバイトシーケンスを使用して各Unicodeコードポイントを記述する文字エンコーディングです。すべてのUnicodeコードポイントの表現をサポートしながら、ASCIIとの下位互換性があります。

8
バイトオーダーマークはJavaでファイルの読み取りを台無しにします
Javaを使用してCSVファイルを読み込もうとしています。一部のファイルでは、最初にバイトオーダーマークが付いている場合がありますが、すべてではありません。存在する場合、バイトオーダーは最初の行の残りと一緒に読み込まれるため、文字列の比較で問題が発生します。 存在する場合にバイトオーダーマークをスキップする簡単な方法はありますか? ありがとう!

5
Unicode文字をURLエンコードする適切な方法は何ですか?
非標準の%uxxxxスキームを知っていますが、このスキームはW3Cによって拒否されているため、賢明な選択とは思えません。 いくつかの興味深い例: ハートのキャラクター。これをブラウザに入力すると: http://www.google.com/search?q=♥ 次に、コピーして貼り付けます。このURLが表示されます http://www.google.com/search?q=%E2%99%A5 これにより、Firefox(またはSafari)がこれを実行しているように見えます。 urllib.quote_plus(x.encode("latin-1")) '%E2%99%A5' トリプルドット文字のように、Latin-1でエンコードできないものを除いて、これは理にかなっています。 … URLを入力すると http://www.google.com/search?q=… ブラウザにコピーして貼り付けます http://www.google.com/search?q=%E2%80%A6 バック。それはやっての結果のようです urllib.quote_plus(x.encode("utf-8")) …Latin-1でエンコードできないため、これは理にかなっています。 しかし、ブラウザがUTF-8とLatin-1のどちらでデコードするかをどのように判断するかは、はっきりしていません。 これはあいまいなようですので: In [67]: u"…".encode('utf-8').decode('latin-1') Out[67]: u'\xc3\xa2\xc2\x80\xc2\xa6' 動作するので、ブラウザがUTF-8またはLatin-1のいずれでデコードするかをブラウザがどのように判断するのかわかりません。 処理する必要がある特殊文字をどのように処理すればよいですか?

10
UnicodeDecodeError: 'ascii'コーデックは位置2のバイト0xd1をデコードできません:序数が範囲(128)にありません
非標準の文字が含まれている非常に大きなデータセットを操作しようとしています。ジョブの仕様に従って、Unicodeを使用する必要がありますが、困惑しています。(そして、おそらくそれをすべて間違っている。) 私は次を使用してCSVを開きます: 15 ncesReader = csv.reader(open('geocoded_output.csv', 'rb'), delimiter='\t', quotechar='"') 次に、それを次のようにエンコードしようとします。 name=school_name.encode('utf-8'), street=row[9].encode('utf-8'), city=row[10].encode('utf-8'), state=row[11].encode('utf-8'), zip5=row[12], zip4=row[13],county=row[25].encode('utf-8'), lat=row[22], lng=row[23]) APIに送信する必要があるため、latとlng以外のすべてをエンコードしています。プログラムを実行してデータセットを解析して使用可能なものにすると、次のトレースバックが得られます。 Traceback (most recent call last): File "push_into_db.py", line 80, in <module> main() File "push_into_db.py", line 74, in main district_map = buildDistrictSchoolMap() File "push_into_db.py", line 32, in buildDistrictSchoolMap county=row[25].encode('utf-8'), lat=row[22], lng=row[23]) UnicodeDecodeError: …
107 python  django  utf-8 

16
UnicodeDecodeError: 'ascii'コーデックは位置1のバイト0xefをデコードできません
文字列をUTF-8にエンコードしようとすると、いくつか問題が発生します。string.encode('utf-8')andの使用などunicode(string)、さまざまなことを試しましたが、エラーが発生します。 UnicodeDecodeError: 'ascii'コーデックは位置1のバイト0xefをデコードできません:序数が範囲外です(128) これは私の文字列です: (。・ω・。)ノ 何が問題になっているのかわかりません。 編集:問題は、文字列をそのまま印刷しても正しく表示されないことです。また、変換しようとしたときのこのエラー: Python 2.7.1+ (r271:86832, Apr 11 2011, 18:13:53) [GCC 4.5.2] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> s = '(\xef\xbd\xa1\xef\xbd\xa5\xcf\x89\xef\xbd\xa5\xef\xbd\xa1)\xef\xbe\x89' >>> s1 = s.decode('utf-8') >>> print s1 Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeEncodeError: …
106 python  unicode  utf-8 

9
JavaScriptのatobを使用してbase64をデコードすると、utf-8文字列が正しくデコードされない
Javascript window.atob()関数を使用して、base64でエンコードされた文字列(具体的には、GitHub APIのbase64でエンコードされたコンテンツ)をデコードしています。問題は、ASCIIエンコードされた文字が返されることです(などのâ¢代わりに™)。着信base64エンコードされたストリームを適切に処理して、utf-8としてデコードされるようにするにはどうすればよいですか?

8
C#文字列をUTF-8からISO-8859-1(Latin1)に変換H
私はこのトピックについてグーグルで検索し、すべての回答を調べましたが、それでもまだわかりません。 基本的に、UTF-8文字列をISO-8859-1に変換する必要があり、次のコードを使用して変換します。 Encoding iso = Encoding.GetEncoding("ISO-8859-1"); Encoding utf8 = Encoding.UTF8; string msg = iso.GetString(utf8.GetBytes(Message)); 私のソース文字列は Message = "ÄäÖöÕõÜü" しかし、残念ながら私の結果文字列は msg = "Ã?äÃ?öÃ?õÃ?ü ここで何が間違っているのですか?
103 c#  .net  encoding  utf-8  iso-8859-1 

14
MySQLにUTF-8を適切に処理させる方法
私が昨日尋ねた質問に対する回答の1つは、データベースがUTF-8文字を正しく処理できることを確認する必要があることを示唆しています。MySQLでこれを行うにはどうすればよいですか?
102 mysql  utf-8 

4
ggplot2でギリシャ語の記号を使用する方法
カテゴリにはギリシャ文字で名前を付ける必要があります。私はを使用ggplot2しており、データを問題なく処理します。残念ながら、これらのギリシャ記号をx軸(目盛り)に配置し、凡例に表示する方法もわかりません。それを行う方法はありますか? 更新:私はリンクを見ましたが、私がやりたいことを達成するために説明された良い方法はありません。
101 r  graphics  unicode  utf-8  ggplot2 

6
XMLシリアル化のためのStringWriterの使用
現在、オブジェクトをシリアル化する簡単な方法を探しています(C#3)。 私はいくつかの例をググって、次のようなものを思いつきました: MemoryStream memoryStream = new MemoryStream ( ); XmlSerializer xs = new XmlSerializer ( typeof ( MyObject) ); XmlTextWriter xmlTextWriter = new XmlTextWriter ( memoryStream, Encoding.UTF8 ); xs.Serialize ( xmlTextWriter, myObject); string result = Encoding.UTF8.GetString(memoryStream .ToArray()); この質問を読んだ後、私は自分自身に質問しましたが、なぜStringWriterを使用しないのですか?はるかに簡単なようです。 XmlSerializer ser = new XmlSerializer(typeof(MyObject)); StringWriter writer = new StringWriter(); ser.Serialize(writer, myObject); …


3
InputStreamをUTF-8として読み取る
text/plainインターネット経由でファイルを1行ずつ読み込もうとしています。私が今持っているコードは: URL url = new URL("http://kuehldesign.net/test.txt"); BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream())); LinkedList<String> lines = new LinkedList(); String readLine; while ((readLine = in.readLine()) != null) { lines.add(readLine); } for (String line : lines) { out.println("> " + line); } ファイルにtest.txtは¡Hélló!、エンコードをテストするために使用するが含まれています。 私が確認するとOutputStream(out)を、私はそれを参照してください> ¬°H√©ll√≥!。私は問題なくOutputStream行うout.println("é");ことができるので、これは問題ではないと思います。 フォームInputStreamをUTF-8として読み取るためのアイデアはありますか?ありがとう!

5
無効なutf8文字列の例?
コードの一部が不良データを処理する方法をテストしています。無効なUTF-8である一連のバイトが必要です。 いくつか、理想的にはそれらが悪い理由/どこで入手したかについての説明を投稿できますか?


11
BOMでUTF-8ファイルを検索するエレガントな方法は?
デバッグの目的で、UTF-8バイトオーダーマーク(BOM)で始まるすべてのファイルをディレクトリで再帰的に検索する必要があります。私の現在の解決策は簡単なシェルスクリプトです: find -type f | while read file do if [ "`head -c 3 -- "$file"`" == $'\xef\xbb\xbf' ] then echo "found BOM in: $file" fi done または、短くて読めないワンライナーを好む場合: find -type f|while read file;do [ "`head -c3 -- "$file"`" == $'\xef\xbb\xbf' ] && echo "found BOM in: $file";done 改行を含むファイル名では機能しませんが、このようなファイルはとにかく予期されていません。 より短いまたはよりエレガントな解決策はありますか? 興味深いテキストエディタやテキストエディタ用のマクロはありますか?
94 php  utf-8  shell  text-editor 

9
PythonでのUTF8 CSVファイルの読み取り
Pythonでアクセント付き文字を含むCSVファイルを読み込もうとしています(フランス語および/またはスペイン語の文字のみ)。csvreaderのPython 2.5ドキュメント(http://docs.python.org/library/csv.html)に基づいて、csvreaderはASCIIのみをサポートしているため、CSVファイルを読み取るために次のコードを考え出しました。 def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs): # csv.py doesn't do Unicode; encode temporarily as UTF-8: csv_reader = csv.reader(utf_8_encoder(unicode_csv_data), dialect=dialect, **kwargs) for row in csv_reader: # decode UTF-8 back to Unicode, cell by cell: yield [unicode(cell, 'utf-8') for cell in row] def utf_8_encoder(unicode_csv_data): for line in unicode_csv_data: yield line.encode('utf-8') filename = …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.