タグ付けされた質問 「unicode」

Unicodeは、すべての書記体系、技術記号、句読点を組み込んだテキストに必要なすべての文字をサポートすることを目的とした、テキストのエンコード、表現、処理の標準です。


3
Java Webアプリケーションを国際化する方法は?
私はGoogleから、国際化はWebアプリケーションですべての言語を使用できるようにするプロセスであることを学びました。国際化の過程でUnicodeを理解したいので、あちこちでUnicodeについて学びました。 私はUnicodeについて、文字セットがどのようにバイトにエンコードされ、バイトが文字セットにデコードされるかを理解できます。しかし、私はさらに前進する方法がわかりません。文字列を比較する方法を学びたいので、Webアプリケーションに国際化を実装する方法を知る必要があります。何か提案がありますか?案内してください。 私の目的: 私の主な目的は、翻訳用のWebアプリケーション(英語からアラビア語、またはその逆)を開発することです。国際化を追いかけたいです。FF、Chrome、IEの3つのブラウザーすべてで、翻訳用のWebアプリケーションを実行したいと思います。どうすればこれを達成できますか?

5
CSS経由のUnicode:before
私が使用しています素晴らしいフォントを自分のWebページ上で、私は内側にアイコン表示したい:before疑似要素を。 ドキュメント/チートシートによると、このフォントを取得するには入力する必要がありますが、機能していません。HTMLエンティティはでサポートされていないため、これは正常だと思います:before。 そこで少しグーグルで調べたところ、HTMLエンティティをで表示:beforeする場合は、エスケープされた16進参照を使用する必要があることがわかりました。 そのため、への16進参照を検索していましたが、何も見つかりませんでした。それは、それが何を意味するにせよ、これらは「私的使用」の価値観だからだと思います。 それを機能させる方法はあります:beforeか?
81 html  css  unicode  encoding  icons 


18
FPDF utf-8エンコーディング(HOW-TO)
FPDFパッケージのエンコーディングをutf-8に設定する方法を知っている人はいますか?または、少なくともギリシャ文字をサポートするISO-8859-7(ギリシャ語)に対してですか? 基本的にギリシャ文字を含むPDFファイルを作成したいと思います。 どんな提案も役に立ちます。ジョージ

5
Pythonの完全な句読点セット(ASCIIだけでなく)
私たちがよく遭遇する可能性があるすべての句読点があるリストまたはライブラリはありますか? 通常はを使用しますstring.punctuationが、次の例のように一部の句読文字は含まれていません。 >>> "'" in string.punctuation True >>> "’" in string.punctuation False
40 python  string  unicode 

3
Array.fromでグループ化される文字は何ですか?
私はJSをいじっていますが、JSを使用して、作成された配列に追加する要素をJSがどのように決定するのかわかりませんArray.from()。たとえば、次の絵文字👍はlength2のコードポイントで構成されているため、2ですが、Array.from()これらの2つのコードポイントを1つとして扱い、1つの要素を持つ配列を提供します。 const emoji = '👍'; console.log(Array.from(emoji)); // Output: ["👍"] コードスニペットを実行する結果を非表示スニペットを展開 ただし、他の一部の文字には、この文字のように2つのコードポイントがषिあります(a .lengthも2です)。ただし、Array.fromこの文字を「グループ化」せず、代わりに2つの要素を生成します。 const str = 'षि'; console.log(Array.from(str)); // Output: ["ष", "ि"] コードスニペットを実行する結果を非表示スニペットを展開 私の質問は次のとおりです。文字が2つのコードポイントで構成されている場合、文字が分割されるか(例2のように)、または1つの要素として処理されるか(例1のように)を決定するのは何ですか。

2
JSの文字列が単一の絵文字かどうかを確認する方法はありますか?
質問は簡単です。文字列があるのstrですstrが、1つの絵文字かどうかを確認するにはどうすればよいですか。さらに、私は別のライブラリを使用しないことを望みます。 マッチ"🍎"、"⛹🏿‍♂️"、"3️⃣"ではなく"🍓a"、"𝕒"、"🍌🍀" 解決策が見つからないのですが、これまでに試したことがいくつかあります。 試行されたソリューション1-長さと...演算子を試してみる 絵文字は1バイト以上、一部は4バイト以上も占めることを学びました...文字列のlengthプロパティを介してそれを測定できます: console.log("🍎".length); // 2 console.log("🛡️".length); // 3 console.log("⛹🏿‍♂️".length); // 6 次に、...演算子がこれを考慮に入れて、配列内の絵文字を正しく分離していることがわかりました。結果の配列のlengthプロパティを確認して、それらが異なるかどうかを検出できました。 str = "⛹🏿‍♂️"; if (str.length !== [...str].length) { // is emoji? } else { // is not emoji } しかし、これは𝕡長さが2 などの他のマルチバイト文字をチェックしません。さらに、一部の絵文字はまだ奇妙な形で分離されていました。 試行されたソリューション2-正規表現、正規表現 もちろん正規表現は調べるべきものですが、私はまだ実行可能な解決策を見つけていません。 この回答の正規表現\u00a9|\u00ae|[\u2000-\u3300]|\ud83c[\ud000-\udfff]|\ud83d[\ud000-\udfff]|\ud83e[\ud000-\udfff]は、文字列に絵文字があるかどうかを検出するために完全に正常に機能しますが、私の状況に適用すると、多くの問題が発生します。これが私のテストです: パートA-文字列の正規表現の開始/終了なし(^および$) 2A.1 str.match(regex)は非常に一貫性がなく、一部の絵文字とその他の使用できないものを分類します。絵文字以外の文字が含まれているかどうか、または複数の絵文字が含まれているかどうかを確認する方法がわかりません。 let regex = /(\u00a9|\u00ae|[\u2000-\u3300]|\ud83c[\ud000-\udfff]|\ud83d[\ud000-\udfff]|\ud83e[\ud000-\udfff])/; console.log("5️⃣".match(regex)); // [ '⃣', …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.