タグ付けされた質問 「utf-8」

UTF-8は、1〜4バイトのバイトシーケンスを使用して各Unicodeコードポイントを記述する文字エンコーディングです。すべてのUnicodeコードポイントの表現をサポートしながら、ASCIIとの下位互換性があります。

14
PythonでのUnicode(UTF-8)ファイルの読み取りと書き込み
ファイルへのテキストの読み取りと書き込み(Python 2.4)を理解するときに、いくつかの脳の障害があります。 # The string, which has an a-acute in it. ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) ( "u'Capit \ xe1n '"、 "' Capit \ xc3 \ xa1n '") print ss, ss8 print >> open('f1','w'), ss8 >>> file('f1').read() 'Capit\xc3\xa1n\n' それでCapit\xc3\xa1n、ファイルf2でお気に入りのエディターに入力します。 次に: >>> open('f1').read() 'Capit\xc3\xa1n\n' >>> open('f2').read() 'Capit\\xc3\\xa1n\n' >>> …
330 python  unicode  utf-8  io 

24
エンコーディングを検出してすべてをUTF-8にする
さまざまなRSSフィードから多くのテキストを読み取ってデータベースに挿入しています。 もちろん、フィードではいくつかの異なる文字エンコードが使用されています(UTF-8やISO 8859-1など)。 残念ながら、テキストのエンコーディングに問題がある場合があります。例: 「サッカー」の「ß」は、私のデータベースでは「Ÿ」のようになります。「Ÿ」の場合、正しく表示されます。 「サッカー」の「ß」が私のデータベースでは「likeƒÂŸ」のようになることがあります。もちろん、誤って表示されます。 その他の場合、「ß」は「ß」として保存されるため、何も変更されません。その後、それも誤って表示されます。 ケース2と3を回避するにはどうすればよいですか? すべてを同じエンコーディング、できればUTF-8にするにはどうすればよいですか?いつ使用する必要があるかutf8_encode()、いつ使用する必要があるかutf8_decode()があるか(効果は何であるかは明らかですが、いつ関数を使用する必要がありますか?)、いつ入力を使用して何もしなければなりませんか? すべてを同じエンコーディングにするにはどうすればよいですか?たぶん機能とはmb_detect_encoding()?このための関数を書くことはできますか?だから私の問題は: テキストが使用するエンコーディングを確認するにはどうすればよいですか? どのようにしてUTF-8に変換しますか-古いエンコーディングが何であれ? このような機能は機能しますか? function correct_encoding($text) { $current_encoding = mb_detect_encoding($text, 'auto'); $text = iconv($current_encoding, 'UTF-8', $text); return $text; } 私はそれをテストしました、しかしそれは働きません。どうしたの?

5
UTF-8:一般?置き場?Unicode?
さまざまな種類のデータに使用する必要がある照合順序を把握しようとしています。保存するコンテンツの100%はユーザーが送信します。 私の理解では、UTF-8バイナリの代わりにUTF-8 General CI(大文字と小文字を区別しない)を使用する必要があります。ただし、UTF-8 General CIとUTF-8 Unicode CIの明確な区別が見つかりません。 ユーザーが送信したコンテンツをUTF-8 GeneralまたはUTF-8 Unicode CI列に保存する必要がありますか? UTF-8 Binaryはどのタイプのデータに適用できますか?
279 mysql  utf-8  collation 


16
ResourceBundleのリソースプロパティでUTF-8を使用する方法
Javaを使用してリソースプロパティでUTF-8を使用する必要がありますResourceBundle。プロパティファイルに直接テキストを入力すると、mojibakeと表示されます。 私のアプリはGoogle App Engineで実行されます。 誰かが私に例を挙げることができますか?私はこの仕事を得ることができません。


2
PythonでのURLデコードUTF-8
私はPythonの初心者である限り、多くの時間を費やしてきました。 どうすればこのようなURLをデコードできますか? example.com?title=%D0%BF%D1%80%D0%B0%D0%B2%D0%BE%D0%B2%D0%B0%D1%8F+%D0%B7%D0%B0%D1%89%D0%B8%D1%82%D0%B0 これをPython 2.7で: example.com?title==правовая+защита url=urllib.unquote(url.encode("utf8")) 非常に醜いものを返しています。 それでも解決策はありません、どんな助けもありがたいです。

11
UTF-8 byte []からStringへ
BufferedInputStreamUTF-8でエンコードされたテキストファイルのバイトをバイト配列に読み込むためにa を使用したとしましょう。私は次のルーチンを使用してバイトを文字列に変換できることを知っていますが、バイトを反復してそれぞれを変換するよりも効率的でスマートな方法がありますか? public String openFileToString(byte[] _bytes) { String file_string = ""; for(int i = 0; i < _bytes.length; i++) { file_string += (char)_bytes[i]; } return file_string; }
243 java  utf-8 

17
JDBCを介してMySQLにUTF-8を挿入しようとしたときに「文字列値が正しくありません」?
これは私の接続が設定される方法です: Connection conn = DriverManager.getConnection(url + dbName + "?useUnicode=true&characterEncoding=utf-8", userName, password); また、テーブルに行を追加しようとすると、次のエラーが発生します。 Incorrect string value: '\xF0\x90\x8D\x83\xF0\x90...' for column 'content' at row 1 何千ものレコードを挿入していますが、テキストに\ xF0が含まれている場合は常にこのエラーが発生します(つまり、正しくない文字列値は常に\ xF0で始まります)。 列の照合順序はutf8_general_ciです。 何が問題でしょうか?
228 mysql  jdbc  utf-8  utf8mb4 

16
「&」を「&」として本当にエンコードする必要がありますか?
&私のサイトのHTML5およびUTF-8で「」記号を使用しています<title>。Googleは、タイトルのすべてのブラウザと同様に、SERPにアンパサンドを表示します。 http://validator.w3.orgは私にこれを与えています: &は文字参照を開始しませんでした。(&おそらくエスケープされるべきだった&。) 私は本当にする必要があり&ますか? 検証のために自分のページを検証することに戸惑うことはありませんが、これについての人々の意見を聞き、それが重要かどうか、そしてその理由を知りたいです。

4
PythonでUTF-8ファイルに書き込む
私は本当に混乱していcodecs.open functionます。私がする時: file = codecs.open("temp", "w", "utf-8") file.write(codecs.BOM_UTF8) file.close() それは私にエラーを与えます UnicodeDecodeError: 'ascii'コーデックは位置0のバイト0xefをデコードできません:序数が範囲(128)にありません 私が行った場合: file = open("temp", "w") file.write(codecs.BOM_UTF8) file.close() 正常に動作します。 質問はなぜ最初の方法が失敗するのですか?そして、どうやってbomを挿入しますか? 2番目の方法がそれを行う正しい方法である場合、使用する意味は何codecs.open(filename, "w", "utf-8")ですか?

8
HTMLエンコードの問題-「 」ではなく「Â」文字が表示される
なんらかの理由でわからないレガシーアプリが動作し始めました。ActivePDFによってPDFレポートに変換される一連のHTMLを生成します。 プロセスは次のように機能します。 置き換えられるトークンが含まれているDBからHTMLテンプレートをプルします(「〜CompanyName〜」、「〜CustomerName〜」など) トークンを実際のデータに置き換える HTMLタグの属性値をプロパティでフォーマットする単純な正規表現関数を使用してHTMLを整頓します(ActivePDFのレンダリングエンジンは属性値を一重引用符で囲んでいないため、引用符などを保証します)。 PDFを作成するWebサービスにHTMLを送信します。 その混乱のどこかに、HTMLテンプレート( s)からの改行しないスペースがISO-8859-1としてエンコードされているため、ブラウザー(FireFox)でドキュメントを表示すると、「Â」文字として誤って表示されます。これらの非UTF8文字でActivePDFの悪ふざけ。 私の質問:問題の原因がわからず、問題を調査する時間がないので、問題のある文字を再エンコードまたは検索して置き換える簡単な方法はありますか?私は一緒に投げたこの小さな関数を使って送信してみましたが、すべてをgobbledegookに変換しても何も変わりません。 Private Shared Function ConvertToUTF8(ByVal html As String) As String Dim isoEncoding As Encoding = Encoding.GetEncoding("iso-8859-1") Dim source As Byte() = isoEncoding.GetBytes(html) Return Encoding.UTF8.GetString(Encoding.Convert(isoEncoding, Encoding.UTF8, source)) End Function 何か案は? 編集: 私は今のところこれでうまくいきますが、それは良い解決策のようには思えません: Private Shared Function ReplaceNonASCIIChars(ByVal html As String) As String Return Regex.Replace(html, "[^\u0000-\u007F]", …

12
PHP DOMDocument loadHTMLがUTF-8を正しくエンコードしない
DOMDocumentを使用して一部のHTMLを解析しようとしていますが、その場合、突然エンコードが失われます(少なくとも、それは私には見えます)。 $profile = "<div><p>various japanese characters</p></div>"; $dom = new DOMDocument(); $dom->loadHTML($profile); $divs = $dom->getElementsByTagName('div'); foreach ($divs as $div) { echo $dom->saveHTML($div); } このコードの結果、日本語以外の文字がたくさん表示されます。ただし、私が行う場合: echo $profile; 正しく表示されます。saveHTMLとsaveXMLを試しましたが、どちらも正しく表示されません。PHP 5.3を使用しています。 私が見るもの: ã¤ãªãã¤å·ã·ã«ã´ã«ã¦ãã¢ã¤ã«ã©ã³ãç³»ã®å®¶åº­ã«ã9人åå¼ã®5çªç®ã¨ãã¦çã¾ãããå½¼ãå«ãã¦4人ã俳åªã«ãªã£ããç¶è¦ªã¯æ¨æã®ã»ã¼ã«ã¹ãã³ã§ãæ¯è¦ªã¯éµä¾¿å±ã®å®¢å®¤ä¿ã ã£ããé«æ ¡æ代ã¯ã­ã£ãã£ã®ã¢ã«ãã¤ãã«å¤ãã¿ãæè²è³éãåããªããã«ããªãã¯ç³»ã®é«æ ¡ã¸é²å­¦ã 何を表示すべきか: イリノイ州シカゴにて、アイルランド系の家庭に、9人兄弟の5番目として生まれる。彼を含めて4人が俳優になった。父親は木材のセールスマンで、母親は郵便局の客室係だった。高校時代はキャディのアルバイトに勤しみ、教育資金を受けながらカトリック系の高校へ進学 編集:自分でテストできるように、コードを5行に簡略化しました。 $profile = "<div lang=ja><p>イリノイ州シカゴにて、アイルランド系の家庭に、</p></div>"; $dom = new DOMDocument(); $dom->loadHTML($profile); echo $dom->saveHTML(); echo $profile; 返されるhtmlは次のとおりです。 <div …

9
Pythonで文字列をutf-8に変換する方法
utf-8文字をPythonサーバーに送信するブラウザーがありますが、それをクエリ文字列から取得すると、Pythonが返すエンコードはASCIIです。プレーンな文字列をutf-8に変換するにはどうすればよいですか? 注:ウェブから渡された文字列はすでにUTF-8でエンコードされています。PythonでASCIIではなくUTF-8として処理するようにしたいだけです。

30
Excelで正しく読み取れるようにPHPでUTF-8 CSVを出力するにはどうすればよいですか?
私はこれをCSV形式で出力するだけの非常に単純なものを持っていますが、それはUTF-8でなければなりません。このファイルをTextEdit、TextMate、Dreamweaverで開くと、UTF-8文字が正しく表示されますが、Excelで開くと、このような愚かなことをしています。これが私のドキュメントの先頭にあるものです。 header("content-type:application/csv;charset=UTF-8"); header("Content-Disposition:attachment;filename=\"CHS.csv\""); Excel(Mac、2008)が適切にインポートしたくない場合を除いて、これはすべて望ましい効果があるようです。Excelに「UTF-8で開く」などのオプションはないので、…少しイライラしています。 多くの人々が同じ問題を抱えているにもかかわらず、私はこれに対する明確な解決策をどこにも見つけることができないようです。私が最もよく目にするのはBOMを含めることですが、その方法を正確に理解することはできません。ご覧のとおり、私はただecho、私はこのデータ、ファイルを作成していません。必要に応じてそれを行うことができます。現時点では必要がないように思えるからです。何か助けは? 更新:BOM echo pack("CCC", 0xef, 0xbb, 0xbf);を検出しようとしているサイトからプルしたBOMをエコーし​​ようとしました。しかし、Excelはインポート時に最初のセルにこれら3つの文字を追加するだけで、特殊文字を混乱させます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.