タグ付けされた質問 「cjk」

2
Chromeは、日本語のテキストをダブルクリックしたときに何をハイライトするかをどのように決定しますか?
Chromeで英語のテキストをダブルクリックすると、クリックした空白で区切られた単語が強調表示されます。これは当然のことです。しかし、先日、日本語のテキストを読みながらクリックしていたところ、日本語にスペースがないにもかかわらず、単語の境界でハイライトされている単語があることに気付きました。これがテキストの例です。 どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。 たとえば、薄暗いをクリックすると、1つの文字クラスではありません(これは漢字とひらがなの混合です)が、Chromeはそれを1つの単語として正しく強調表示します。すべてのハイライトが正しいわけではありませんが、ランダムに見えるわけではありません。 Chromeはここで何を強調するかをどのように決定しますか?Chromeのソースで「日本語」を検索してみましたが、私のバージョンのChromeではアクティブに見えない実験的なモジュールのテストしか見つかりませんでした。

3
実際に使用されている最も一般的な非BMP Unicode文字は何ですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 6年前休業。 この質問を改善する これまでの経験で、BMP(Basic Multilingual Plane)以外のUnicode文字、コードポイント、範囲は、これまでで最も一般的ですか?これらは、UTF-8では4バイト、UTF-16ではサロゲートを必要とするものです。 名前には中国語と日本語の文字が使用されているが、最も普及しているCJKマルチバイト文字セットには含まれていないと思いましたが、私が最も取り組んでいるプロジェクトである英語ウィクショナリーでは、ゴシックアルファベットが今のところはるかに一般的です。 更新 私はウィキペディア全体でBMP以外の文字をスキャンするソフトウェアツールをいくつか作成しましたが、驚いたことに、日本のウィキペディアでもゴシックアルファベットが最も一般的であることがわかりました。これは、中国語版ウィキペディアにも当てはまりますが、「𨭎」、「𠬠」、「𩷶」など、多くの漢字が最大50回または70回使用されていました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.