Unicodeの漢字の完全な範囲は何ですか?


94

U + 4E00..U + 9FFFは完全なセットの一部ですが、すべてではありません


3
ブロックの範囲は時々更新されるため、ここではウィキペディアの記事をリンクするだけです。静的に応答する動的に変化するラガーtganをリンクする方が良いです... en.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067

回答:


104

CJK Unicode FAQ(「中国語、日本語、韓国語」の文字が含まれています)で完全なリストが見つかるかもしれません

東アジアのスクリプト」文書には、

漢字表意文字を含むブロック

表12-2に示すように、漢字の表意文字は、Unicode標準の5つの主要ブロックにあります。

表12-2。漢字表意文字を含むブロック

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

注:ブロックの範囲は時間の経過とともに変化する可能性があります。最新のものはCJK Unified Ideographsにあります。

ウィキペディアも参照してください:


U + AC00 – U + D7AF(ハングル音節)を含めることもできます。
Flimm 2013

12
@Flimm:ハングルは中国の標準の一部ではありません。ハングルは韓国語です。韓国語ハンジャ( "中国語の文字")を使用ますが、ハングルでは文字変換できない一部の伝統的なもの(姓、記念碑、場所など)にしか使用できません。OPは特に中国語について質問したため、レスポンダーにハングルを含める必要はありませんでした。:-)
omn​​inonsense 2013

1
リストは句読点( "。")をカバーしていないようです。
のMichałWoliński

1
@MichałWolińskiCJK 記号と句読点の範囲は3000-303F
マリアーノ

CJK Unified Ideographs Extension Aが3400から4dffではなく3400から4dbfであることを知りました。
Lerner Zhang

48

Unicodeには現在74605のCJK文字があります。CJK文字は、中国で使用される文字を含むが、日本語の漢字、韓国語漢字、ベトナムだけでなく、チュノム。一部のCJK文字は漢字ではありません

1)CJK Unified Ideographsブロックの 20941文字。

コードポイントU + 4E00からU + 9FCC。

  1. U + 4E00〜U + 62FF
  2. U + 6300-U + 77FF
  3. U + 7800-U + 8CFF
  4. U + 8D00-U + 9FCC

2)CJKUI Ext Aブロックの 6582文字。

コードポイントU + 3400からU + 4DB5。Unicode 3.0(1999)。

3)CJKUI Ext Bブロックからの42711文字。

コードポイントU + 20000からU + 2A6D6。Unicode 3.1(2001)。

  1. U + 20000-U + 215FF
  2. U + 21600-U + 230FF
  3. U + 23100-U + 245FF
  4. U + 24600-U + 260FF
  5. U + 26100-U + 275FF
  6. U + 27600-U + 290FF
  7. U + 29100-U + 2A6DF

3)CJKUI Ext Cブロックからの4149文字。

コードポイントU + 2A700からU + 2B734。Unicode 5.2(2009)。

4)CJKUI Ext Dブロックからの222文字。

コードポイントU + 2B740からU + 2B81D。Unicode 6.0(2010)。

5)CJKUI Ext Eブロック。

近日公開

上記でスパゲッティが不十分な場合は、既知の問題を確認しください。楽しんでください=)


1
こんにちは、漢字ではないCJK表意文字(できれば基本平面から)の例を挙げていただけますか?漢字ではない他の言語(日本語、韓国語)の文字が別のブロック(たとえば、韓国語の場合はハングルジャモブロック)に表示されると思いました...
Adam Burley

「グクジャ」「コクジ」「チョーノム」を見てみてください。U + 4E44、乄は、日本語のみのCJK文字です。
Ṃųỻịgǻňạcểơửṩ

21

漢字の正確な範囲(拡張子を除く)は[\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]です。

  1. [\u2e80-\u2fd5]

CJK部首サプリメントは、Kangxi部首の代替の、多くの場合定位置の形式を含むUnicodeブロックです。これらは、ラジカルストロークによって編成された辞書インデックスおよびその他のCJK表意文字コレクションのヘッダーに使用されます。

  1. [\u3190-\u319f]

Kanbunは、繁体字中国語テキストの日本語コピーで使用される注釈文字を含むUnicodeブロックであり、読み順を示します。

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-Aは、珍しい漢字表意文字を含むUnicodeブロックです。

  1. [\u4E00-\u9FCC]

CJK統一表意文字は、現代の中国語と日本語で使用される最も一般的なCJK表意文字を含むUnicodeブロックです。

  1. [\uF900-\uFAAD]

CJK互換イデオグラフは、Unicodeとそれらのエンコーディング間の往復互換性を維持するために、CJK統一イデオグラフ割り当てに加えて、他の確立された文字エンコーディングで複数の場所にエンコードされた漢字を含めるために作成されたUnicodeブロックです。

詳細はをご参照くださいここでは、拡張機能は、他の回答で提供されています。


この回答に反対票を投じた人が理由を教えてくださいませんか?
Lerner Zhang

2
反対投票はしませんでしたが、拡張機能B、C、D、Eはどうですか?
Suragch 2017

@Suragchこれらの拡張機能は他の回答で正しく提供されているため、私がそれを書き直す必要はありません。範囲を明確に区別するだけです。
Lerner Zhang

1. CJK部首サプリメントの範囲は2E80—2EFFです。2.Kangxi部首は漢字ではありません。漢字のグラフィックコンポーネントです。特別に部首を表すために使用されます。 )、⻜(U + 2EDC)および飞(U + 98DE)3.漢文が漢字であると思われる場合は、なぜCJK互換表意文字ではないのですか?CJKのレターと月を同封しないのはなぜですか?
Voyager

@ramblerアドバイスありがとうございます。私達が私達が中国の特性を処理するとき私達はKangxiラジカルおよびKanbunを考慮するべきであると思います。CJK互換の表意文字は良いですが、同封のCJK文字と月は非常にまれであり、考慮する必要はないと思います。
Lerner Zhang

9

Unicodeバージョン11.0.0

Unicodeでは、中国語、日本語、韓国語(CJK)のスクリプトは共通の背景を共有しており、総称してCJK文字と呼ばれています。

これらの範囲には、割り当てられていない、または予約されているコードポイントが含まれていることがよくあります(U + 2E9A、U + 2EF4-2EFFなど)。

漢字

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • ではCJK統合漢字のブロック、Iは上限9FCCを使用していますが、U + 9FCD( 鿍が)確かに中国の文字である。多くの答えに気づきます そして、このブロックのすべての文字は漢字です(日本語や韓国語などでも使用されます)。
  • CJK統合Ideograohs Ext(Ext Fを除く、Ext Fの17%のみが漢字)のほとんどの文字は、中国ではほとんど使用されない伝統的な漢字です。
  • 〇はゼロの漢字形式で、現在も使用されています

したがって、範囲は

[0x3007,0x3007]、[0x3400,0x4DBF]、[0x4E00,0x9FEF]、[0x20000,0x2EBFF]

CJK文字ですが、中国語では使用されていません

それらは互換性のためだけに使用される共通漢です。

それらが中国の本、記事、文章などに現れるのを見ることはほとんど不可能です。

ここにあるすべての文字には、対応する1つのグリフ同一漢字があります。金(U + F90A)と金(U + 91D1)のように、これらはGlyphで同一です。

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

CJK関連の記号

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • ハングル互換性Jamoなどの一部のブロックは、中国語との関係がないために破棄されます。
  • Kangxi Radicalsは漢字ではありません。漢字のグラフィックコンポーネントです。特に、部首を表現するために使用されます。 98DE)

その他の一般的な句読点は中国語で表示されます

これは広範囲であり、一部の句読点は使用されない可能性があります。一部の句読点など……”“は中国語で頻繁に使用されます。

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

そこのような多くの中国関連シンボル、またある怡景六芒星の記号寛文は、それはとにかく、オフトピックです。私はCJKで非漢字を書いて、漢字とは何かをよりよく説明しています。また、上記の範囲は、数学およびその他の特殊表記を除いて、中国語の文字で表示される文字のほとんどすべてをすでにカバーしています。

補足

CJK記号と句読点

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

半角および全角フォーム

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

参照

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97(中国語では、右側のバーに注意してください
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 %84%8F%E6%96%87%E5%AD%97 (下の表に注意してください)
  3. http://www.unicode.org

2

他の回答が提供したUnicodeコードブロックは、確か​​にほとんどの中国のUnicode文字をカバーしていますが、これらの他のコードブロックのいくつかもチェックしてください。

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

ここで私の完全な議論を参照してください。そして、このサイトはユニコードの閲覧に便利です。


1

要約すると、次のように聞こえます。

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.