タグ付けされた質問 「unicode」

Unicodeは、すべての書記体系、技術記号、句読点を組み込んだテキストに必要なすべての文字をサポートすることを目的とした、テキストのエンコード、表現、処理の標準です。

12
マークダウン構文でのディレクトリとファイル構造の表現
私のJekyllブログ投稿のいくつかでディレクトリとファイルの構造を説明したいのですが、Markdownはそのようなものを出力するためのきちんとした方法を提供していますか? たとえば、Jekyll Webサイトのこのリンクで、ディレクトリとファイル構造がページに非常にきれいに出力されていることがわかります。 . ├── _config.yml ├── _drafts │ ├── begin-with-the-crazy-ideas.textile │ └── on-simplicity-in-technology.markdown ├── _includes │ ├── footer.html │ └── header.html ├── _layouts │ ├── default.html │ └── post.html ├── _posts │ ├── 2007-10-29-why-every-programmer-should-play-nethack.textile │ └── 2009-04-26-barcamp-boston-4-roundup.textile ├── _data │ └── members.yml ├── _site └── index.html 上記の行ブロック文字はUnicodeであると思います(この回答で説明されているように)が、Markdownや別のブラウザーがそれらをどのように処理するかはわかりません。Markdownがこれを行ういくつかの方法を含んでいて、おそらく上記のUnicode文字として出力されることを望んでいました。
215 unicode  markdown  jekyll 

6
Python __str__対__unicode__
そこにあなたが実装する必要があるときのためのPythonの慣習である__str__()対__unicode__()。クラスが__unicode__()より頻繁にオーバーライドするのを見てきまし__str__()たが、一貫性がないようです。どちらか一方を実装する方が良い場合、特定のルールはありますか?両方を実装する必要がある/良い習慣はありますか?

16
Pythonの文字列がASCIIかどうかを確認するにはどうすればよいですか?
文字列がASCIIかどうかを確認したい。 気づいていますが、やってord()みるord('é')とわかりますTypeError: ord() expected a character, but string of length 2 found。Pythonのビルド方法が原因であることがわかりました(ord()のドキュメントで説明されています)。 チェックする別の方法はありますか?
211 python  string  unicode  ascii 

7
Java識別子の「接続文字」とは何ですか?
SCJPについて読んでいますが、この行について質問があります。 識別子は、文字、通貨文字($)、またはアンダースコア(_)などの接続文字で始まる必要があります。識別子を数字で始めることはできません! 有効な識別子名は、アンダースコアなどの接続文字で開始できることを示しています。アンダースコアが唯一の有効なオプションだと思いましたか?他にどのような接続文字がありますか?
208 java  unicode  identifier  scjp 

16
wstringを文字列に変換する方法は?
問題は、wstringをstringに変換する方法ですか? 次の例があります: #include <string> #include <iostream> int main() { std::wstring ws = L"Hello"; std::string s( ws.begin(), ws.end() ); //std::cout <<"std::string = "<<s<<std::endl; std::wcout<<"std::wstring = "<<ws<<std::endl; std::cout <<"std::string = "<<s<<std::endl; } コメントアウトされた行の出力は次のとおりです。 std::string = Hello std::wstring = Hello std::string = Hello しかしなしは: std::wstring = Hello 例に何か問題がありますか?上記のように変換できますか? 編集 新しい例(いくつかの回答を考慮に入れる)は #include <string> #include …
204 c++  unicode  stl  wstring 

9
Pythonで文字列をutf-8に変換する方法
utf-8文字をPythonサーバーに送信するブラウザーがありますが、それをクエリ文字列から取得すると、Pythonが返すエンコードはASCIIです。プレーンな文字列をutf-8に変換するにはどうすればよいですか? 注:ウェブから渡された文字列はすでにUTF-8でエンコードされています。PythonでASCIIではなくUTF-8として処理するようにしたいだけです。

5
「検索」を表すUnicodeグリフシンボルはありますか[終了]
休業。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善してみませんか?この投稿を編集して、事実と引用で回答できるように質問を更新してください。 4年前休業。 この質問を改善する Unicodeには100万個のアイコンのようなグリフがありますが、検索は非常に困難です。 「双眼鏡」や「虫眼鏡」のようなUnicodeグリフはありますか?または、Unicodeの「検索」を意味するために使用されている記号はありますか?

5
UnicodeはC ++ 11でどの程度サポートされていますか?
C ++ 11がUnicodeをサポートしていることを読んだり聞いたりしました。それに関するいくつかの質問: C ++標準ライブラリはどの程度Unicodeをサポートしていますか? ないstd::string何それが必要ですか? どうやって使うの? 潜在的な問題はどこにありますか?
183 c++  unicode  c++11 

6
エンコード/デコードの違いは何ですか?
str / unicodeのデコードとエンコードの違いを理解していることを確信できませんでした。 私はそれstr().decode()が特定の文字エンコーディングを持っていることがわかっているバイトの文字列を持っているときに、そのエンコーディング名がUnicode文字列を返すことを知っています。 unicode().encode()与えられたエンコーディング名に従ってユニコード文字をバイトの文字列に変換することを知っています。 しかし、私は何str().encode()を理解していないのかunicode().decode()。誰かが説明できますか、そしておそらく私が上で間違っている他の何かを修正することもできますか? 編集: いくつかの答え.encodeは文字列で何が行われるかについての情報を提供しますが、誰.decodeもがユニコードで何が行われるのかを知りません。

11
PythonでエラーなしにUnicodeをASCIIに変換する
私のコードはWebページを削って、それをUnicodeに変換するだけです。 html = urllib.urlopen(link).read() html.encode("utf8","ignore") self.response.out.write(html) しかし、私はUnicodeDecodeError: Traceback (most recent call last): File "/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/webapp/__init__.py", line 507, in __call__ handler.get(*groups) File "/Users/greg/clounce/main.py", line 55, in get html.encode("utf8","ignore") UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 2818: ordinal not in range(128) 私はそれがHTMLがどこかに間違った形式のUnicodeの試みを含んでいることを意味すると思います。エラーが発生する代わりに、問題の原因となっているコードバイトを削除できますか?


9
(grep)非ASCII文字に一致する正規表現?
Linuxでは、多くのファイルを含むディレクトリがあります。一部には非ASCII文字がありますが、すべて有効なUTF-8です。1つのプログラムにバグがあり、ASCII以外のファイル名で機能しないため、影響を受けるファイルの数を調べる必要があります。私はこれを使ってこれを行いfind、次にgrepを実行して非ASCII文字を出力し、次にa wc -lを実行して数字を見つけていました。grepである必要はありません。私は、任意の標準的なUnix使用できる正規表現のように、Perlの、sedは、AWKなどを、 しかし、「ASCII文字以外の文字」の正規表現はありますか?
169 regex  unicode  grep  ascii 


9
アクセント付き文字用の具体的なJavascript正規表現(発音区別符号)
私はスタックオーバーフロー(文字を置き換える..ええと、JavaScriptがどのようにRegExpに関するUnicode標準に準拠していないかなど)を調べましたが、質問に対する具体的な答えは見つかりませんでした。 How can JavaScript match for accented characters (those with diacritical marks)? UIのフィールドをlast_name, first_name (最後の[カンマスペース]が最初に)一致するように強制していて、発音区別符号のサポートを提供したいのですが、JavaScriptでは、明らかに他の言語/プラットフォームよりも少し難しいです。 これは、発音区別符のサポートを追加するまで、元のバージョンでした。 /^[a-zA-Z]+,\s[a-zA-Z]+$/ 現在、サポートを追加するための3つの方法の1つについて議論しています。それらはすべてテストして動作しました(少なくともある程度は、2番目のアプローチの「範囲」が何であるか本当にわかりません)。はい、どうぞ: 有効にしたいすべてのアクセント付き文字を明示的にリストします(不完全で複雑すぎる)。 var accentedCharacters = "àèìòùÀÈÌÒÙáéíóúýÁÉÍÓÚÝâêîôûÂÊÎÔÛãñõÃÑÕäëïöüÿÄËÏÖÜŸçÇßØøÅåÆæœ"; // Build the full regex var regex = "^[a-zA-Z" + accentedCharacters + "]+,\\s[a-zA-Z" + accentedCharacters + "]+$"; // Create a RegExp from the string version regexCompiled = …

8
PHP文字列のUnicode文字
この質問は恥ずかしいほど簡単に見えますが、答えを見つけることができませんでした。 次のコードのC#行に相当するPHPは何ですか? string str = "\u1000"; このサンプルは、「Unicode数値」が16進数で1000(10進数で4096)である単一のUnicode文字で文字列を作成します。 つまり、PHPで「Unicode数値」がわかっている単一のUnicode文字を含む文字列を作成するにはどうすればよいですか?
164 php  unicode 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.