タグ付けされた質問 「unicode」

Unicodeは、すべての書記体系、技術記号、句読点を組み込んだテキストに必要なすべての文字をサポートすることを目的とした、テキストのエンコード、表現、処理の標準です。

12
Unicode文字から発音区別符号(charǹňñṅņṇṋṉ̈ɲƞᶇɳȵ)を削除する
分音記号付きの文字(チルダ、サーカムフレックス、キャレット、ウムラウト、キャロン)とその「単純な」文字との間でマッピングできるアルゴリズムを探しています。 例えば: ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ --> n á --> a ä --> a ấ --> a ṏ --> o 等。 私はこれをJavaで実行したいのですが、Unicodeのようなもので、どの言語でも簡単に実行できるはずです。 目的:分音記号付きの単語を簡単に検索できるようにします。たとえば、テニスプレーヤーのデータベースがあり、Björn_Borgが入力されている場合は、Bjorn_Borgも保持するので、誰かがBjörnではなくBjornに入った場合にそれを見つけることができます。

5
本当に良い、悪いUTF-8サンプルテストデータ[終了]
閉まっている。この質問はスタックオーバーフローのガイドラインを満たしていません。現在、回答を受け付けていません。 この質問を改善してみませんか?Stack Overflowのトピックとなるように質問を更新します。 3年前休業。 この質問を改善する したがって、XSSフィルタリングをテストするためのXSSチートシートがありますが、悪意のあるページの例以外に、UTF-8コードが動作不良のデータを処理できることを確認するための悪質なまたは不正なテストデータを見つけることができません。 テストに適したデータはどこにありますか?悪いデータはどこにありますか?または、トリッキーな文字のシーケンスとは何ですか?
88 unicode  utf-8 

12
TCHARはまだ関連していますか?
私はWindowsプログラミングに不慣れで、Petzoldの本を読んだ後、次のように思います。 文字列を宣言するためにTCHAR型と_T()関数を使用することはまだ良い習慣ですか、それとも新しいコードでwchar_tとL""文字列を使用する必要があるのですか? Windows 2000以降のみを対象とし、コードは最初からi18nになります。
87 c++  c  windows  unicode  wchar-t 


6
'useutf8;'の使用 「印刷物のワイド文字」を教えてくれます
次のPerlプログラムを実行すると: perl -e 'use utf8; print "鸡\n";' この警告が表示されます: Wide character in print at -e line 1. このPerlプログラムを実行すると: perl -e 'print "鸡\n";' 警告は出ません。 use utf8PerlスクリプトでUTF-8文字を使用する必要があると思いました。なぜこれが機能しないのですか?どうすれば修正できますか?私はPerl5.16.2を使用しています。これがコマンドラインのワンライナーではなくファイルにある場合も、同じ問題が発生します。
86 perl  unicode  utf-8 

2
正規表現:InCombiningDiacriticalMarksとは何ですか?
次のコードは、アクセント付きの文字をプレーンテキストに変換することでよく知られています。 Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); 「手作り」の方法をこれに置き換えましたが、replaceAllの「正規表現」の部分を理解する必要があります 1)「InCombiningDiacriticalMarks」とは何ですか? 2)それの文書はどこにありますか?(および類似物?) ありがとう。
86 java  regex  unicode 

2
C ++のwchar_tとwstringsの「間違った」とは何ですか?ワイド文字に代わるものは何ですか?
C ++コミュニティ(特にfreenodeの## c ++)の多くの人々が、wstringsとの使用、およびWindowsAPIwchar_tでのそれらの使用に憤慨しているのを見てきました。まったく「間違っている」とは何であるwchar_tとwstring、私は国際化をサポートしたい場合は、ワイド文字にはいくつかの選択肢は何ですか?

3
Pythonの「このUnicodeに最適なASCII」データベースはどこにありますか?[閉まっている]
閉まっている。この質問は、StackOverflowのガイドラインを満たしていません。現在、回答を受け付けていません。 この質問を改善したいですか?質問を更新して、スタックオーバーフローのトピックになります。 28日前に閉店しました。 この質問を改善する 左二重引用符、アポストロフィの右一重引用符など、Unicode句読点を使用するテキストがいくつかあり、ASCIIで必要です。Pythonには、明らかなASCII置換を備えたこれらの文字のデータベースがあるので、すべてを「?」に変換するよりもうまくいくことができます。?
86 python  unicode  ascii 

1
WebClient.DownloadStringは、エンコーディングの問題のために文字が壊れてしまいますが、ブラウザは問題ありません
次のコード: var text = (new WebClient()).DownloadString("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20")); textとりわけ、文字列を含む変数になります 「$κ$-ミンコフスキー空間、スカラー場、およびローレンツ不変性の問題」 ただし、FirefoxでそのURLにアクセスすると、 $κ$-ミンコフスキー空間、スカラー場、およびローレンツ不変性の問題 これは実際には正しいです。私も試しました var data = (new WebClient()).DownloadData("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20"); var text = System.Text.UTF8Encoding.Default.GetString(data); しかし、これは同じ問題を引き起こしました。 ここのどこに問題があるのか​​わかりません。フィードはUTF8でエンコードされていることについて嘘をついていWebClientますか?ブラウザーはそれを理解するのに十分賢いですが、そうではありませんか?フィードは適切にUTF8でエンコードされていますWebClientが、他の方法で失敗していますか?これを軽減するために何ができますか?

5
MySQLVARCHARの長さとUTF-8
MySQLVARCHAR(32)で、UTF-8テーブルに新しいフィールドを作成した場合、そのフィールドに32バイトのデータまたは32文字(マルチバイト)を格納できることを意味しますか?
84 mysql  unicode  utf-8  varchar 

1
C ++ 11での文字列リテラルのUnicodeエンコーディング
関連する質問に続いて、C ++ 11の新しい文字と文字列リテラルタイプについて質問したいと思います。現在、4種類の文字と5種類の文字列リテラルがあるようです。文字タイプ: char a = '\x30'; // character, no semantics wchar_t b = L'\xFFEF'; // wide character, no semantics char16_t c = u'\u00F6'; // 16-bit, assumed UTF16? char32_t d = U'\U0010FFFF'; // 32-bit, assumed UCS-4 そして文字列リテラル: char A[] = "Hello\x0A"; // byte string, "narrow encoding" wchar_t B[] = L"Hell\xF6\x0A"; …

3
Pythonでのunicode()およびencode()関数の使用
パス変数のエンコードとSQLiteデータベースへの挿入に問題があります。役に立たなかったencode( "utf-8")関数でそれを解決しようとしました。次に、タイプunicodeを与えるunicode()関数を使用しました。 print type(path) # <type 'unicode'> path = path.replace("one", "two") # <type 'str'> path = path.encode("utf-8") # <type 'str'> strange path = unicode(path) # <type 'unicode'> 最終的にUnicodeタイプを取得しましたが、パス変数のタイプがstrの場合と同じエラーが発生します。 sqlite3.ProgrammingError:8ビットバイトストリングを解釈できるtext_factory(text_factory = strなど)を使用しない限り、8ビットバイトストリングを使用しないでください。代わりに、アプリケーションをUnicode文字列に切り替えることを強くお勧めします。 このエラーを解決しencode("utf-8")、unicode()機能の正しい使用法を説明するのを手伝ってもらえますか?私はよくそれと戦っています。 編集: このexecute()ステートメントはエラーを引き起こしました: cur.execute("update docs set path = :fullFilePath where path = :path", locals()) 同じ問題を抱えているfullFilePath変数のエンコーディングを変更するのを忘れましたが、今はかなり混乱しています。unicode()またはencode( "utf-8")、あるいはその両方のみを使用する必要がありますか? 使えない fullFilePath = …

6
Unicodeで何文字をマッピングできますか?
Unicodeで可能なすべての有効な組み合わせの数を説明付きで求めています。charは1、2、3、または4バイトとしてエンコードできることを知っています。また、その文字の開始バイトで長さがクリアされているのに、継続バイトに制限がある理由もわかりません。
82 unicode  utf-8  utf 

8
Cプログラミング:Unicode用にプログラミングする方法は?
厳密なUnicodeプログラミングを行うにはどのような前提条件が必要ですか? これは、私のコードがcharどこでも型を使用してはならず、wint_tおよびを処理できる関数を使用する必要があることを意味しwchar_tますか? そして、このシナリオでマルチバイト文字シーケンスが果たす役割は何ですか?

21
Unicodeエンコーディングの文字列を文字列に変換する方法
私はエスケープされた文字列持ちのUnicode文字を、\uXXXXと私は定期的にUnicodeの文字に変換します。例えば: "\u0048\u0065\u006C\u006C\u006F World" になるはずです "Hello World" 最初の文字列を印刷すると、すでにが表示されていることを知っていますHello world。私の問題は、ファイルからファイル名を読み取り、それらを検索することです。ファイル内のファイル名はUnicodeエンコーディングでエスケープされており、ファイルを検索すると、名前に含まれるファイルが検索されるため、ファイルが見つかりません\uXXXX。
82 java  unicode  encoding 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.