プログラミング unicode

12

Unicode文字から発音区別符号（charǹňñṅņṇṋṉ̈ɲƞᶇɳȵ）を削除する

分音記号付きの文字（チルダ、サーカムフレックス、キャレット、ウムラウト、キャロン）とその「単純な」文字との間でマッピングできるアルゴリズムを探しています。例えば： ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ --> n á --> a ä --> a ấ --> a ṏ --> o 等。私はこれをJavaで実行したいのですが、Unicodeのようなもので、どの言語でも簡単に実行できるはずです。目的：分音記号付きの単語を簡単に検索できるようにします。たとえば、テニスプレーヤーのデータベースがあり、Björn_Borgが入力されている場合は、Bjorn_Borgも保持するので、誰かがBjörnではなくBjornに入った場合にそれを見つけることができます。

88 java unicode diacritics transliteration

5

本当に良い、悪いUTF-8サンプルテストデータ[終了]

閉まっている。この質問はスタックオーバーフローのガイドラインを満たしていません。現在、回答を受け付けていません。この質問を改善してみませんか？Stack Overflowのトピックとなるように質問を更新します。 3年前休業。この質問を改善するしたがって、XSSフィルタリングをテストするためのXSSチートシートがありますが、悪意のあるページの例以外に、UTF-8コードが動作不良のデータを処理できることを確認するための悪質なまたは不正なテストデータを見つけることができません。テストに適したデータはどこにありますか？悪いデータはどこにありますか？または、トリッキーな文字のシーケンスとは何ですか？

88 unicode utf-8

12

TCHARはまだ関連していますか？

私はWindowsプログラミングに不慣れで、Petzoldの本を読んだ後、次のように思います。文字列を宣言するためにTCHAR型と_T()関数を使用することはまだ良い習慣ですか、それとも新しいコードでwchar_tとL""文字列を使用する必要があるのですか？ Windows 2000以降のみを対象とし、コードは最初からi18nになります。

87 c++ c windows unicode wchar-t

13

<0xEF、0xBB、0xBF>文字がファイルに表示されます。それらを削除する方法は？

JavaScriptファイルの圧縮を行っていますが、コンプレッサーがファイルにï»¿文字が含まれていると文句を言っています。これらの文字を検索して削除するにはどうすればよいですか？

86 file unicode utf-8 utf

6

'useutf8;'の使用「印刷物のワイド文字」を教えてくれます

次のPerlプログラムを実行すると： perl -e 'use utf8; print "鸡\n";' この警告が表示されます： Wide character in print at -e line 1. このPerlプログラムを実行すると： perl -e 'print "鸡\n";' 警告は出ません。 use utf8PerlスクリプトでUTF-8文字を使用する必要があると思いました。なぜこれが機能しないのですか？どうすれば修正できますか？私はPerl5.16.2を使用しています。これがコマンドラインのワンライナーではなくファイルにある場合も、同じ問題が発生します。

86 perl unicode utf-8

2

正規表現：InCombiningDiacriticalMarksとは何ですか？

次のコードは、アクセント付きの文字をプレーンテキストに変換することでよく知られています。 Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); 「手作り」の方法をこれに置き換えましたが、replaceAllの「正規表現」の部分を理解する必要があります 1）「InCombiningDiacriticalMarks」とは何ですか？ 2）それの文書はどこにありますか？（および類似物？）ありがとう。

86 java regex unicode

2

C ++のwchar_tとwstringsの「間違った」とは何ですか？ワイド文字に代わるものは何ですか？

C ++コミュニティ（特にfreenodeの## c ++）の多くの人々が、wstringsとの使用、およびWindowsAPIwchar_tでのそれらの使用に憤慨しているのを見てきました。まったく「間違っている」とは何であるwchar_tとwstring、私は国際化をサポートしたい場合は、ワイド文字にはいくつかの選択肢は何ですか？

86 c++ winapi unicode internationalization wstring

3

Pythonの「このUnicodeに最適なASCII」データベースはどこにありますか？[閉まっている]

閉まっている。この質問は、StackOverflowのガイドラインを満たしていません。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、スタックオーバーフローのトピックになります。 28日前に閉店しました。この質問を改善する左二重引用符、アポストロフィの右一重引用符など、Unicode句読点を使用するテキストがいくつかあり、ASCIIで必要です。Pythonには、明らかなASCII置換を備えたこれらの文字のデータベースがあるので、すべてを「？」に変換するよりもうまくいくことができます。？

86 python unicode ascii

1

WebClient.DownloadStringは、エンコーディングの問題のために文字が壊れてしまいますが、ブラウザは問題ありません

次のコード： var text = (new WebClient()).DownloadString("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20")); textとりわけ、文字列を含む変数になります「$Îº$-ミンコフスキー空間、スカラー場、およびローレンツ不変性の問題」ただし、FirefoxでそのURLにアクセスすると、 $κ$-ミンコフスキー空間、スカラー場、およびローレンツ不変性の問題これは実際には正しいです。私も試しました var data = (new WebClient()).DownloadData("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20"); var text = System.Text.UTF8Encoding.Default.GetString(data); しかし、これは同じ問題を引き起こしました。ここのどこに問題があるのかわかりません。フィードはUTF8でエンコードされていることについて嘘をついていWebClientますか？ブラウザーはそれを理解するのに十分賢いですが、そうではありませんか？フィードは適切にUTF8でエンコードされていますWebClientが、他の方法で失敗していますか？これを軽減するために何ができますか？

85 .net unicode utf-8 webclient

5

MySQLVARCHARの長さとUTF-8

MySQLVARCHAR(32)で、UTF-8テーブルに新しいフィールドを作成した場合、そのフィールドに32バイトのデータまたは32文字（マルチバイト）を格納できることを意味しますか？

84 mysql unicode utf-8 varchar

1

C ++ 11での文字列リテラルのUnicodeエンコーディング

関連する質問に続いて、C ++ 11の新しい文字と文字列リテラルタイプについて質問したいと思います。現在、4種類の文字と5種類の文字列リテラルがあるようです。文字タイプ： char a = '\x30'; // character, no semantics wchar_t b = L'\xFFEF'; // wide character, no semantics char16_t c = u'\u00F6'; // 16-bit, assumed UTF16? char32_t d = U'\U0010FFFF'; // 32-bit, assumed UCS-4 そして文字列リテラル： char A[] = "Hello\x0A"; // byte string, "narrow encoding" wchar_t B[] = L"Hell\xF6\x0A"; …

84 c++ unicode c++11 utf string-literals

3

Pythonでのunicode（）およびencode（）関数の使用

パス変数のエンコードとSQLiteデータベースへの挿入に問題があります。役に立たなかったencode（ "utf-8"）関数でそれを解決しようとしました。次に、タイプunicodeを与えるunicode（）関数を使用しました。 print type(path) # <type 'unicode'> path = path.replace("one", "two") # <type 'str'> path = path.encode("utf-8") # <type 'str'> strange path = unicode(path) # <type 'unicode'> 最終的にUnicodeタイプを取得しましたが、パス変数のタイプがstrの場合と同じエラーが発生します。 sqlite3.ProgrammingError：8ビットバイトストリングを解釈できるtext_factory（text_factory = strなど）を使用しない限り、8ビットバイトストリングを使用しないでください。代わりに、アプリケーションをUnicode文字列に切り替えることを強くお勧めします。このエラーを解決しencode("utf-8")、unicode()機能の正しい使用法を説明するのを手伝ってもらえますか？私はよくそれと戦っています。編集：このexecute（）ステートメントはエラーを引き起こしました： cur.execute("update docs set path = :fullFilePath where path = :path", locals()) 同じ問題を抱えているfullFilePath変数のエンコーディングを変更するのを忘れましたが、今はかなり混乱しています。unicode（）またはencode（ "utf-8"）、あるいはその両方のみを使用する必要がありますか？使えない fullFilePath = …

83 python string sqlite unicode encoding

6

Unicodeで何文字をマッピングできますか？

Unicodeで可能なすべての有効な組み合わせの数を説明付きで求めています。charは1、2、3、または4バイトとしてエンコードできることを知っています。また、その文字の開始バイトで長さがクリアされているのに、継続バイトに制限がある理由もわかりません。

82 unicode utf-8 utf

8

Cプログラミング：Unicode用にプログラミングする方法は？

厳密なUnicodeプログラミングを行うにはどのような前提条件が必要ですか？これは、私のコードがcharどこでも型を使用してはならず、wint_tおよびを処理できる関数を使用する必要があることを意味しwchar_tますか？そして、このシナリオでマルチバイト文字シーケンスが果たす役割は何ですか？

82 c unicode utf-8 character-encoding locale

21

Unicodeエンコーディングの文字列を文字列に変換する方法

私はエスケープされた文字列持ちのUnicode文字を、\uXXXXと私は定期的にUnicodeの文字に変換します。例えば： "\u0048\u0065\u006C\u006C\u006F World" になるはずです "Hello World" 最初の文字列を印刷すると、すでにが表示されていることを知っていますHello world。私の問題は、ファイルからファイル名を読み取り、それらを検索することです。ファイル内のファイル名はUnicodeエンコーディングでエスケープされており、ファイルを検索すると、名前に含まれるファイルが検索されるため、ファイルが見つかりません\uXXXX。

82 java unicode encoding

タグ付けされた質問 「unicode」

タグ付けされた質問「unicode」